2012/07/02 11:34:31

ЦОД - от проекта до эксплуатации. Обоснование создания и составление ТЗ

В настоящий момент очень часто со страниц различных технических журналов и на сайтах различных фирм приводится очень много данных по ЦОД (центр обработки данных).

Каталог решений для Центров обработки данных доступен на TAdviser

Содержание

В основном приводится информация по уже реализованным проектам ЦОД, либо по передовым технологиям, применяемым при его создании. Почему-то вопрос об обосновании выбора ЦОД, вопросы грамотного составления ТЗ на него, а так же вопросы об эффективном использовании всех возможностей заложенных в ЦОД оказывается упущенными. В меру своих сил и возможностей постараюсь осветить более подробно эти вопросы.

Область применения документа и перечень рассматриваемых вопросов

Настоящий документ предназначен для получения комплекса необходимой информации для специалистов занимающихся созданием и эксплуатацией ЦОД, серверных и машинных залов.

В документе рассматриваются:

  • Проблемы, появляющиеся на этапах проектирования, строительства и эксплуатации ЦОД, а так же возможные решения этих проблем
  • Приводятся рекомендации по использованию современных стандартов, а так же даётся краткая их характеристика
  • Приводятся основные ошибки при проектировании, и проблемы, появляющиеся при эксплуатации, показываются их последствия, а так же возможные пути устранения ошибок и решения проблем
  • Отдельно приводятся правила создания успешных IT-проектов
  • Раскрываются наиболее важные требования к основным элементам ЦОД, и по возможности, объясняется причина этих требований и последствия их несоблюдения
  • Перечисляются основные тенденции в создании ЦОД и некоторые статистические данные зарубежных и российских ЦОД

Конечно это не всеохватывающий документ, и в рамках одного документа рассмотреть основные вопросы, возникающие на стадиях обоснования, проектирования, ввода в эксплуатацию и самой эксплуатации не представляется возможным. Поэтому я постараюсь, по возможности осветив ключевые моменты всего жизненного цикла ЦОД, уделить особое внимание вопросам, на мой взгляд, наименее описанным в литературе и Интернете. От того, что некоторые вопросы не получили должного освещения они не перестают быть важными, тем более, что некоторые из них, как показано будет далее замалчиваются по вполне определённым причинам.

ИТ-директор «Роснефти» Дмитрий Ломилин выступит на TAdviser SummIT 28 ноября

Предварительно я попытаюсь уточнить круг специалистов, для которых документ будет ориентирован. Это будут специалисты организаций не имеющие ЦОД, но желающие его построить, специалисты принявшие решение построить ЦОД, но не знающие, на что обратить внимание при написание технического задания (Т)З и как выбрать партнёра, специалисты, построившие ЦОД, но пытающихся при эго эксплуатации обеспечить заявленные характеристики и снизить затраты. А также вероятно документ будет интересен поставщикам оборудования и разработчикам ЦОД, хотя бы в плане понимания проблем их клиентов. Хотя документ и будет рассматривать большинство вопросов возникающих при обосновании выбора ЦОД, его проектировании, построении и эксплуатации, но в документе не будет указаний на выбор того или иного оборудования, и даже на обязательное использование тех или иных технологий. Дело в том, что новая техника, решения и технологии появляются каждый год, часто, по сути, отличаясь внесением некоторых несущественных изменений, или реализацией давно известных решений, но на новом техническом уровне. Помните — «Знание нескольких принципов, освобождает нас от знания множества частностей». Исходя из этого, я и постараюсь в первую очередь, рассказать о принципах проектирования и эксплуатации сложных вычислительных систем, которые, как нельзя лучше подходит для ЦОД.

Для того, что бы обсуждать проблемы построения и эксплуатации ЦОД надо определиться с некоторыми терминами и понять что же такое ЦОД. Поэтому вначале я попытаюсь определиться с самим термином «ЦОД».

Определение термина «ЦОД»

Последнее время очень модно стало рассуждать о создании ЦОД. Почти каждая уважающая себя фирма заявляет, что одной из её специализаций является построение ЦОД или Дата-центров. Обычно компании ссылаются на положительные отзывы, выполненные проекты и т.д. и т.п.

Попробуем сначала разобраться, что такое ЦОД, чем он отличается от просто хорошей серверной, а так же какие свойства ЦОДа позволяют ему называться ЦОД. Так же попробуем понять, выполнение, каких работ при построении ЦОД требует особого внимания и где можно сэкономить без потерь в качестве. Анализ всего этого позволит не только создать более качественный ЦОД, но и пригодится при построении других объектов хранения и обработки данных.

Если обратиться к Википедии то ЦОД или центр хранения и обработки данных (ЦОД/ЦХОД) — это специализированное здание для размещения (хостинга) серверного и коммуникационного оборудования и подключения абонентов к каналам сети Интернет. Другое название ЦОД — Дата-центр (от англ. data center).

Замечание: Если в документе приводится термин «Дата-центр», то это означается, что цитируется, или пересказывается документ, где используется именно такой термин, а не термин «ЦОД».

На самом деле такая трактовка как минимум не раскрывает всей сути, что же такое ЦОД. Значительно ближе по смыслу такая трактовка «ЦОД – это здание (или его часть) для которого применены комплексные решения по хранению, обработке и распространению информационных данных с IT-инфраструктурой позволяющей обеспечивать свои функции удовлетворяющие определённым критериям»

Во всяком случае, в определении ЦОД не стоит подчёркивать наличие хостинга и сети Интернет, т.к. они действительно могут быть, но их отсутствие не является критичным для ЦОД. В том виде, как приводится уточнённая формулировка ЦОД, она наиболее полно соответствует концепции ЦОД изложенной в Стандарте TIA-942. Хотя, на мой взгляд, следовало бы уточнить формулировку «ЦОД — Это здание, его часть, или группа зданий, для которых применены…» далее по тексту. Т.к. вполне может оказаться, что при реализации ЦОД с дублированием подсистем территориально ЦОД окажется разнесён между несколькими зданиями. Иногда вспоминают и о том, что при функционировании ЦОД необходимо разработать комплекс организационных процедур и постоянно заниматься обучением персонала. Но это уже не столь принципиально, т.к. стоит только понимать, что ЦОД это не только здание, но и комплекс инженерных решений, да и не только её, а так же обеспечение необходимых сервисов и наличие квалифицированного персонала.

Исторически дата-центры (название ЦОД появилось позже в России) выросли из больших серверных имеющихся у IT-компаний в 90-х годах. Этому качественному изменению содействовало появление клиент-серверной технологии, появление новых стандартов кабельных сетей, и появление иерархического управления носителями данных. Основные черты ЦОД сложились к 2000 году, когда очень востребованы стали ЦОД для развёртывания интернет серверов организаций, не имеющих возможностей по их поддержке, а так же обеспечения работы в своих вычислительных центрах разросшихся баз данных различных организаций.

В настоящее время в одном Санкт-Петербурге более 30 ЦОД. На самом деле их больше, т.к. некоторые организации построили себе инфраструктуры подходящие под понятие ЦОД.

Относительно Стандарта TIA-942 необходимо заметить, что в документе подробно проработаны вопросы построения (в основном в форме изложений требований) инженерных подсистем, но если попытаться задаться вопросом выбора конкретного проекта для построения ЦОД, с целью выполнения конкретных задач, сразу появляются вопросы. В Стандарте TIA-942 вводится понятие уровней TIER. Стандарт рассматривает четыре уровня, связанных с разной степенью готовности (терминология TIA-942) инфраструктуры оборудования дата-центра. Более высокие уровни соответствуют не только более высокой готовности, но соответственно вызывают повышенные затраты на создание инфраструктуры. Фактически Стандарт TIA-942 разделяет (классифицирует) ЦОДы только по уровню надёжности (иногда пишут что по уровню доступности, но этот термин хотя и близок, но всё же он уже термина «надёжность»).

Классификация ЦОД

Само понятие ЦОД достаточно малоинформативное, дело в том все ЦОДы разные не только по размерам, но и по задачам, возложенным на них, по возможности обеспечивать с определённым уровнем (качеством) свои основные функции. Да и основными функциями у различных ЦОД в зависимости от своей ориентации могут считаться разные функции.

Если посмотреть более внимательно, то можно выделить достаточно много критериев, по которым можно разделить ЦОДы. В основном именно эти критерии будут определяющими при функционировании ЦОДов, либо эти критерии будут нести в себе набор каких-то свойств позволяющих выделить определённую группу ЦОДов.

Можно разделить ЦОДы по:

  • Назначению или точнее — разделить их на публичные и не публичные (чаще используется термин «корпоративные») ЦОДы;
  • Надёжности хранения данных (если быть более точным, то по совокупности надёжности и доступности).

Существуют ещё как отдельные группы Катастрофоустойчивые Центры Обработки Данных (КЦОД) и «трэш-дата-центры». Название «трэш» пошло от (англ. trash — мусор) – обычно это небольшие ЦОДы, охлаждение в которых реализовано только за счёт естественного воздухообмена.

Такие «мусорные» ЦОДы в большинстве своём не соответствуют полностью требованиям к ЦОДам, но менее затратны, экологичны и аренда серверных стоек у них стоит существенно дешевле.

С разделением на публичные и не публичные ЦОД всё ясно, и подход к проектированию у них различный. Ведь делая ЦОД под себя, организация достаточно хорошо знает, какие из основных свойств ей необходимы, а где она может сэкономить. Отсюда и вытекает возможность выборочного исполнения требований для ЦОД. В публичных ЦОД всё несколько сложнее и если на ЦОД хотят получить сертификацию, что бы увеличить число своих клиентов, то, как минимум, обязательные рекомендации придётся исполнять все.

Если говорить о надёжности, то начинать нужно с рассмотрения термина «Наработка на отказ». Вообще-то не факт, что система после выхода из строя при отказе одного из своих элементов перестанет функционировать. Если при выходе со строя (переходе из работоспособного состояния в не работоспособное) одного из элементов системы, система становится неработоспособной, то говорят, что произошёл отказ. Если всё же система осталась работоспособной, то говорят, что произошёл сбой. Момент и частота появления сбоев и отказов описываются методами теории вероятности и в настоящем документе не рассматривается. Единственно о чём нужно помнить что, только анализируя схему надежности системы и имея данные о наработках на отказ в цифровом выражении каждой его составной части можно говорить уровне доступности или работоспособности всей системы. Доля (%) времени в течение года, когда система находится в рабочем состоянии и/или в состоянии простоя (% Uptime and Down time), напрямую связаны между собой. Период простоя (downtime) – это суммарный показатель простоев за год. Этими терминами часто оперируют при обсуждении различных уровней (Tier) ЦОД. Но цифровое их выражение для разных уровней не корректно, т.к. разброс показателей отказоустойчивости у ЦОД одного уровня может быть велик. В соответствующем месте документа будет показано, что все цифры характеризующие период простоя у различных уровней ЦОД от лукавого и реально опираться на них нельзя. Если говорить кратко, то перечень наиболее характерных черт различных уровней ЦОД можно свести в простую таблицу.

<tbody> </tbody>

Класс ЦОД (уровень)

1

2

3

4

Наиболее характерная черта Базовый уровень низкая отказоустойчивость С резервированием С возможностью параллельного проведения профилактических работ Высокая отказоустойчивость
Подвержен нарушениям нормального хода работы как от плановых, так и от внеплановых действий. Он имеет системы распределения электропитанияи охлаждения компьютеров, но может иметь или не иметь фальшполов, ИБП или генератора. Если даже есть ИБП или генераторы, то они представляют собой одномодульные системы и имеют много одиночных точек отказа. Ежегодно инфраструктуру приходится полностью выключать для выполнения работ по планово-предупредительномуобслуживанию и профилактическому ремонту. Срочная необходимость может потребовать более частых отключений. Ошибки при эксплуатации или самопроизвольные отказы компонентов инфраструктуры объекта будут вызывать перерывы нормального хода работы дата-центра. Имеются избыточные компоненты, несколько меньше подверженнарушениям нормального хода работы от плановых и от внеплановых действий, чем базовый дата-центр. В данном случае, имеется фальшпол, ИБП и генераторы, однакопроект имеет оценку N+1 (Need plus One), что означает однопоточный путь распределения по всей площади. Техническое обслуживание и ремонт критического пути электроснабжения и других частей инфраструктуры объекта потребует остановки процесса обработки данных. Позволяет осуществлять любую плановую деятельность инфраструктуры объекта без какого-либо нарушения нормального хода работы технических средств машинного зала. К плановой деятельности относится профилактическое ипрограммируемое техническое обслуживание, ремонт и замена компонентов, добавление или удаление компонентов, влияющих на производительность, тестирование компонентов и систем и пр. Необходимо иметь в наличии достаточную мощность и распределительные возможности, чтобы одновременно нестинагрузку на одном пути и в то же время выполнять ремонт или тестирование на другом пути. Внеплановые действия, например ошибки при эксплуатации или самопроизвольные отказы компонентов инфраструктуры объекта, всё же будут вызывать перерывы нормального хода работы дата-центра. Объекты Уровня III часто проектируют с перспективой наращивания ресурсов до Уровня IV. Имеет несколько активных путей распределения электропитания иохлаждения. Обеспечивает повышенную степень отказоустойчивости из-за наличия 2-х путей.Обеспечивает несколько путей подвода электропитания ко всемвидам вычислительного и телекоммуникационного оборудования. Требует, чтобы всё компьютерное и телекоммуникационное оборудование имело несколько силовых входов. Оборудование продолжает функционировать, когда один силовых входов отключён.Предусматривается возможность и способность инфраструктуры объекта позволять любую плановую деятельность без нарушения нормального хода работы критически важной нагрузки. Отказоустойчивая функциональность также обеспечивает способность инфраструктуры дата-центра выдержать по крайней мере один внеплановый отказ (или событие) наихудшего свойства без последствий для критически важной нагрузки. Имеет в наличии двух отдельных систем ИБП, в которых каждая система имеет резервирование N+1.
Тип компании-потребителя ресурсов Средний и малый бизнес. ЦОД для обслуживания внутренних процессов компании Средний и малый бизнес. ЦОД функционирует в режиме"5Х8" Компании, обслуживающие как внутренних, так и внешних заказчиков в режиме «7Х24» Глобальные компании, предоставляющие свои услуги в режиме «24×365»
Тип здания C соседями Отдельно стоящее
Количество энерговводов 1 Один активный, второй резервный Два активных

Для примера привожу соответствие доступности, времени нахождения системы в нерабочем состоянии (в год). К цифрам привязывать уровни не буду, т.к. я уже сказал выше, разброс показателей доступности в год может быть в пределах одного уровня достаточно велик.

<tbody> </tbody>

Доступность, %
(% UP TIME)

Время простоя в год, час.
(
DOWN TIME в год), час

Решения, обеспечивающие надёжность

95

438

Без резервирования, генератора, и резервного ввода

96,5

306,6

Без резервирования, генератора, и резервного ввода

98

175,2

Без резервирования, генератора, но имеется резервный ввод

98,5

131,4

С частичным «холодным» резервированием, без генератора но имеется резервный ввод

99,5

43,8

С «горячим» резервированием наиболее важных частей и «холодным» практически всего остального, наличие генератора и резервного ввода

99,9

8,76

С «горячим» резервированием наиболее важных частей и «холодным» практически всего остального, с генератором в «горячем» резерве и резервном вводе в «горячем» резерве.
99,999 5,26 мин. Полное резервирование всего, всегда наличие 2-х путей (связей) часто с дублированием.

Запись вида «Без резервирования» не говорит о том, что в случае выхода со строя будет ожидаться заказ и получение от поставщика отказавшего блока. Наличие просчитанных запасов ЗИП и снижение значения показателя MTTR (среднее время ремонта) так же заметно влияет на время простоя.

Ещё одно важное замечание. ЦОД будет максимально того уровня какого минимальный уровень одной из составных его частей. Но с другой стороны нужно помнить, что не все рекомендации из стандартов являются обязательными, и если знать конкретно на что и как влияет их нарушение, то обычно можно несколько сэкономить при построении ЦОД.

Пример

Разработчики, достаточно часто борясь за повышение энергоэффективности ЦОД, которая, оценивается как соотношение общей мощности к мощности ИТ-оборудования долго боролись за возможность повысить рабочую температуру. Идея здравая, ведь реально срок службы большинства компьютерного оборудования в ЦОДе 3-4 года, хотя попутно нужно заметить, что аппаратура отвечающая за энергообеспечение обычно заменяется реже, правда, при правильном техническом обслуживании. После этого срока либо оборудование заменяется, либо наиболее критичные приложения переносятся на другое новое оборудование. Увеличение же на несколько градусов температуры в помещении реально не влияет на вероятность отказа оборудования за этот срок, но заметно уменьшает потери на охлаждение, тем самым повышая энергоэффективность. Сейчас есть тенденции для некоторых классов ЦОД ещё повысить допустимую температуру.

Поэтому очень важно знание о том, почему в Стандартах приводятся те или другие требования, и что будет при отклонении от стандарта в ту или другую сторону. Со всем этим можно разобраться, только анализируя требования к тем или другим частям ЦОД. Так же необходимо разобраться и с вопросом, какие стандарты регламентируют требования к составным частям ЦОД, не противоречат ли они друг другу, и вообще стоит ли эти стандарты соблюдать. Поэтому следующая глава будет посвящена стандартам и их требованиям.

Требования стандартов к составным частям ЦОД

Вначале надо определиться требованиями, каких стандартов необходимо руководствоваться, и главное — что будет, если их несколько «нарушить» соответственно в лучшую или худшую сторону. В самом начале главы, я выскажу несколько крамольную мысль. Стандарты необходимо знать, для того, что бы в случае необходимости их можно было при необходимости нарушать. Точнее обоснованно делать некоторые из требований для вашего конкретного ЦОД выше или ниже, чем требования стандарта к выбранному вами классу ЦОД. Написал я эту строку и понял, теперь точно придётся писать название этого «умного» стандарта, требованиям которого необходимо следовать при разработке ЦОД. Но… нет – не всё так просто. Документы, несущие в своём заголовке гордое имя «Стандарт…» на самом деле чаще всего являются обобщённым опытом группы экспертов создавших этот Стандарт. К доступности (% UP TIME) или времени простоя (DOWN TIME) рекомендации не имеют прямого отношения. Следование требованиям стандартов действительно позволяет улучшить эти показатели, но на какую величину, то это является тайной покрытой мраком. Дело в том, что практически не возможно учесть все факторы, влияющие на уменьшение или увеличение этих показателей и тем более невозможно получить данные на всю, используемую конкретно вами аппаратуру вашего ЦОД. Что же делать? В первую очередь, выстроив по приоритетам требования к создаваемому вами ЦОД попытаться принять за основу один из стандартов и в дальнейшем следовать его требованиям с возможной точностью.

На мой взгляд, начать поиск подходящего для вас Стандарта нужно с ранее уже упоминавшегося TIA-942 «Телекоммуникационная инфраструктура Центров Обработки Данных». Первая версия стандарта была опубликована в 2005 году. Здесь подробно детализированы требования к конструктивам, энергоснабжению, теплоотводу, контролю безопасности, избыточности, обслуживанию и порядку приемки в эксплуатацию.

В июне 2010 года корпорация Building Industry Consulting Service International Inc. (BICSI) опубликовала новый стандарт 002-2010: Data Center Design and Implementation Best Practices. Этот стандарт BSCI 002-2010 отражает рост сложности обустройства вычислительных центров и потребность компаний и организаций в понимании требований к энергетике, механическим нагрузкам и телекоммуникациям при проектировании инфраструктуры ВЦ.

Каким же стандартом лучше пользоваться? В чем их различия? Как же тогда сертифицироваться? Ведь существуют и стандарты от других организаций. Например, главным отличием при сертификации по стандартам Uptime Institute (Институт бесперебойных процессов) является то, что сертифицированные специалисты этой организации должны на месте убедиться в реализации требований, изложенных в своих стандартах. В середине 2010 года Uptime Institute выпустил еще один стандарт “Operational Sustainability (Операционной устойчивости)” регламентирующий и службы эксплуатации. Именно требований к службе эксплуатации не хватало в TIA-942. И хотя совместно выполняя требования Стандарта TIA-942 и стандарта Operational Sustainability можно уже достаточно точно сформулировать требования к ЦОД, но на практике строители новых вычислительных центров чаще ссылаются на стандарт TIA-942. Дело в том, что каждый из стандартов составлялся различной организацией и во многих деталях отличаются друг от друга. Тем более что, по мнению специалистов Uptime Institute, их порядок разделения на уровни доступности никак функционально не связан с уровнями TIA-942, они оценивают способность вычислительных центров поддерживать работоспособность в условиях отказов и аварий. Чтобы избежать путаницы специалисты Uptime Institute предлагают обозначать уровни доступности в их толковании римскими цифрами I, II, III и IV. Достаточно сложно и сертифицировать ЦОД. Если обратиться к сайту Uptime Institute (сайт http://uptimeinstitute.com) то на конец мая 2012 года реально обеспечивает IV Уровень (т.е. не только документация и созданное здание с техническими средствами в нём, но и уровень эксплуатации) только 1 центр, сертификация построенного объекта на IV Tier проведена для 6 ЦОДов. Сертификация документации для построения ЦОД IV Tier получена для 22 объектов. Российских ЦОД среди Tier IV на настоящий момент нет. ЦОДов уровня III так же не очень много. Обеспечивают полное выполнение требований для III Уровня по «Операционной устойчивости» всего лишь 4 ЦОДа. Российских среди них нет. Документация и помещение соответствует Tier III у 5 российских ЦОД (4- Design Documents и 1 Constructed Facility).

В течение 2012 года будет опубликован Стандарт TIA-942-A включивший в себя изменения и дополнения следующих версий TIA-942-1 и TIA-942-2. К сожалению, новая версия стандарта сильно видоизменилась. Новый стандарт TIA-942-A будет касаться только темы кабельных систем и уже не будет таким всеобъемлющим, какой был стандарт TIA-942. Т.е. в основном он будет регламентировать только построение кабельных систем. Раздел об энергетической эффективности, скорее всего, будет касаться этой темы только с точки зрения кабельной системы и использования «зеленой» среды передачи данных – оптоволокна.

Ниже приведен перечень основных изменений, включенных в текущий проект TIA-942-A (согласно предварительным заявлением разработчика). Эта информация выделена курсивом.

TIA-942-A приведен в соответствие с серией стандартов TIA-568-C в отношении топологии, терминологии и классификаций среды, представленных в стандарте 568-C.0, а также спецификаций компонентов, представленных в TIA-568-C.2 и C.3;

  • Приложения, TIA-942-1 и TIA-942-2, включены в стандарт TIA-942-A;
  • Информация по заземлению была перемещена из стандарта TIA-942-A в стандарт TIA-607-B;
  • Информация по администрированию будет перемещена в стандарт TIA-606-B;
  • Большая часть информации, касающаяся телекоммуникационных шкафов и серверных стоек, разделения силовых и телекоммуникационных кабельных систем, будет перемещена в стандарт TIA-569-C;
  • Информация по внешней кабельной разводке перемещена в TIA-758-B;
  • Отменено ограничение длины горизонтальных оптоволоконных кабельных систем 100 метрами.
  • Кабели Category 3 и Category 5e больше не должны применяться в горизонтальных кабельных системах. В рабочей версии стандарта разрешено применение сбалансированных витых пар типа Category 6 и Category 6A в горизонтальных кабельных системах. Category 6 и Category 6A можно будет использовать и в магистральных кабельных системах;
  • Одобрено применение в горизонтальных и магистральных кабельных системах многомодовых оптоволоконных кабелей типа OM3 и OM4 (многомодовый оптическое волокно с диаметром сердечника/оболочки 50/125 мкм, оптимизированное для работы с источниками света на основе лазеров на длине волны 850 нм). Кабели типа OM1 и OM2 больше не разрешаются для использования;
  • Для соединения одного или двух волоконных кабелей должны использоваться волоконно-оптические разъемы типа LC и для многоволоконных разъемы типа MPO;
  • В топологию ЦОД включена промежуточная распределительная зона (IDA) ;
  • В стандарт добавлен раздел по энергетической эффективности;
  • Добавлены термины «аппаратная розетка» (EO — equipment outlet) и «внешний сетевой интерфейс» (ENI — external network interface), заимствованные из международного стандарта ISO/IEC 24764.

Стандарт “Operational Sustainability (Операционной устойчивости)” всего лишь дополняет TIA-942 особенно в части эксплуатации ЦОД.

Стандарт «Operational Sustainability», описывает требования, позволяющие гарантировать устойчивость центров обработки данных, а также минимизировать связанные с этим риски. Как известно, предшествующий широко распространенный стандарт «Tier Standard: Topology» регламентировал технические параметры ЦОД, необходимые для достижения определенного уровня надежности. Особенность нового стандарта в том, что он учитывает человеческий фактор в устойчивой работе ЦОД. И это имеет большое значение, так как процент ошибок в работе, связанных с этим фактором достигает 70%, из них чуть более 40% связаны с ошибками управляющих службы эксплуатации. Чтобы свести к минимуму эти ошибки необходимо вести целенаправленную работу с персоналом, повышать его квалификацию, проводить мероприятия по удержанию квалифицированных кадров.

Если рассматривать стандарты от корпорации BICSI, то можно заметить, что их подход отличается от подходов к оценке уровней устойчивости других организаций.

Система оценки уровней устойчивости и основные разделы стандарта BICSI 002 2010. Как утверждают в ассоциации, разработчики стандарта ставили перед собой цель обеспечить проектирование и строительство центров обработки данных с учетом долгосрочной перспективы их эксплуатации. Основные разделы документа:

  • Планировка ЦОД
  • Выбор площадки
  • Архитектурные решения
  • Строительные конструкции
  • Электротехнические системы
  • Механические системы
  • Пожаротушение
  • Безопасность
  • Системы автоматизации здания
  • Телекоммуникации
  • Информационные технологии
  • Ввод в действие
  • Эксплуатация и техническое обслуживание
  • Процесс проектирования
  • Надежность

Поэтому по поводу стандартов для построений ЦОД необходимо заметить, что все разработчики общих стандартов для ЦОД, не противоречат, друг другу в части требований и ссылок на Стандарты при построении базовых уровней ЦОД. Коммерческие ЦОД в силу своей специфики, должны удовлетворять (и желательно быть сертифицированы) всем требованиям стандарта, который они взяли за основу. Отнюдь не все рекомендации влияют на основное качество ЦОД — обеспечение заданного уровня доступности. Поэтому некоммерческие ЦОД в ряде случаем могут некоторые требования и игнорировать. Тем более что сертификация вещь не только дорогая, но и впрямую не влияющая на уровень работоспособности ЦОД. После реализации ЦОД всё же можно вносить некоторые изменения не только в уровень поддержки, но и в другие уровни, пытаясь удовлетворить требованиям какого-то из стандартов для получения сертификации.

Uptime Institute в своё время определил четыре уровня, связанных с разной степенью готовности инфраструктуры оборудования дата-центра (ЦОД). На самом деле хоть они связаны с уровнем доступности, но наверно более правильно говорить об уровнях TIER, хотя сам термин «TIER» и переводится как — «Уровень». Выше я, не зря раскрывая понятие «Уровень», не приводил цифровые характеристики уровня доступности ЦОД. Цифровые выражения были получены только из анализа реализованных проектов. Привожу некоторые данные из документа, разработанного Институтом проблем работоспособности (The Uptime Institute) в изданном ими бюллетене «Классификация уровней по отраслевому стандарту, определяющему качество работы инфраструктуры объекта» (Industry Standard Tier Classifications Define Site Infrastructure Performance).

<tbody> </tbody>

Параметр / Класс
ЦОД (уровень)

1
Низкая отказоустойчивость

2

3

4
Высокая отказоустойчивость

Тип здания C соседями С соседями Отдельно стоящее Отдельно стоящее
Количество энерговводов 1 1 Один активный,
второй резервный
Два активных
Первоначальная мощность Вт на м2 215 — 323 430 — 537 430 — 645 537 — 860
Максимальная мощность Вт на м2 215 — 323 430 — 537 1075- 1615 1615+
Бесперебойное кондиционирование Нет Нет Возможно Есть
Высота фальшпола в метрах 0.3 0.45 0.75 — 0.9 0.75 — 0.9
Нормативная нагрузка на фальшпол, кг на м2 415 488 732 732+
(по страндарту 2005г 1000+)
Общая длительность отказов за год 28,8 ч 22 ч 1,6 ч 0,4 ч
Доступность ЦОД 99,671 % 99,749 % 99,982 % 99,995%
Срок ввода в эксплуатацию (мес.) 3 3 — 6 15 — 20 15 — 20
Типовой проект впервые реализован в 1965 г. 1970 г. 1985 г. 1995 г.

Общий вывод по использованию стандартов:

  • Основополагающим стоит считать использование стандарта TIA — 942 с последними дополнениями (например с стандартом “Operational Sustainability (Операционной устойчивости)”;
  • Новый стандарт TIA-942-A (одобрен 24 апреля 2012 года) касается только темы кабельных систем и уже не будет таким всеобъемлющим, какой был стандарт TIA-942;
  • При построении ЦОД следует пользоваться не только стандартами, но и здравым смыслом, позволяющим существенно сэкономить, не ухудшая наиболее востребованные его качества;
  • Сертификация более необходима коммерческому ЦОД, а ЦОД организации может этим не заниматься. Конечно если ЦОД всё, же создавался на основе стандартов, то все отступления от рекомендаций должны быть обоснованными;
  • Прочитать, и, главное, понять какой Стандарт взять за основу и на какие требования его необходимо будет сделать упор в будущей разработке, нельзя считать, что работу со стандартами вы закончили. Перед тем, как переходить к следующему этапу, необходимо в обязательном порядке перечитать старые, хорошие, правда, в настоящий момент в основном забытые ГОСТы – серии 34. И ничего, что они уже много лет не обновлялись, но там есть подробное рассмотрение предпроектных стадий. В них нет находящихся на слуху слов «бизнес-процессы», «процессорный подход», но есть понятие «информационная модель» вполне корректно их заменяющее. Поэтому особенно на стадии ТЗ эти документы, вам помогут. Конечно, подходить нужно творчески и не следовать буквально всем рекомендациям, но внимательно прочитать их необходимо.

Порядок построения ЦОД

Как не странно наибольший вклад в успешность или не успешность будущего проекта вносят начальные стадии. Вообще-то по мировой статистике в IT индустрии успешным становится только -один проект из 3-х. Если подойти более жестко, и оценивать успешность проекта как:

  • возможность выполнять заявленные функции с требуемым качеством
  • выполнить работу за планируемое время
  • невыходе за пределы первоначального бюджета проекта
  • отсутствие авральных работ на различных этапах проекта
  • отсутствие необходимости сразу начинать работу по модернизации проекта.

Всё будет ещё хуже. Наверно под определение «успешный» попадёт не более 20% проектов.

Причин для провала проекта достаточно много. Тут и неверная политика (именно политика, т.к. решение спорных вопросов это чаще всего нахождение компромиссов) руководства проекта, отсутствие должной поддержки у руководителя организации, слабая проработка ТЗ и как результат большое количество незапланированных работ, слабое участие специалистов организации, для которой проект выполняется и всякие форс-мажорные обстоятельства.

Если практически над каждым проектом довлеет вероятность провала, то, как быть с бодрыми заявлениями о десятках успешных проектов у множества фирм? Для начала нужно сразу поставить всё на свои места, определив термин «Проект».

Проект (если обратиться к Википедии) - это уникальная (в отличие от операций) деятельность, имеющая начало и конец во времени, направленная на достижение заранее определённого результата/цели, создание определённого, уникального продукта или услуги, при заданных ограничениях по ресурсам и срокам, а также требованиям к качеству и допустимому уровню риска. Наверно это определение можно для большей конкретики упростить. Проект это совокупность задач, мероприятий или выполненных работ связанных с достижением запланированной цели, которая обычно имеет уникальный и неповторяющийся характер. Основное это то, что проект всегда уникален (хотя бы для лиц выполняющих его). Поэтому всё то, о чём исполнители говорят, как об успешном проекте на самом деле является успешным внедрением, т.е. реализацией уже готового решения. Процент реализации успешных внедрений существенно выше, чем успешных проектов. И если у программистов написание любой сложной программы всегда проект, то в сфере построения инфраструктуры возможны и внедрения. Достаточно сложно провести грань, когда внедрение перерастает в проект. Например, если создаётся небольшой программно-аппаратный комплекс для автоматизации, какой-то удалённой площадки и делается это разработчиком не в первый раз, да и количество отличий от ранее созданных как в аппаратной части, так и в наборе устанавливаемых программ минимально, то это внедрение. И оно имеет достаточно большие шансы на успех. Если же появились отличия в части значительного количества новых аппаратных средств, установки нового сложного ПО, или появления новых требований, которые не выполнить в рамках реализации предыдущих решений, то создание такого аппаратно-программного комплекса будет проектом. Т.е. исполнитель проекта всегда в начале своей работы находится в состоянии, когда цели определены, пути решения неопределённы, успешное решение задачи под вопросом. Поясняю, почему я подробно остановился на, казалось бы, терминологическом вопросе.

Дело в том, что существуют 2 подхода к выполнению работ и их оценке. Это подход Разработчика и подход Заказчика.

Разработчик, старается при реализации задания от Заказчика:

  1. Постараться применить уже реализованное ранее Разработчиком решение;
  2. В случае невозможности этого, пытается применить апробированное другими фирмами решение (чаще всего решение рекомендованное производителем оборудования или ПО);
  3. Попытаться понизить требования Заказчика и по возможности свести их к тем же типовым решениям;
  4. В случае неудачи предыдущего пункта Разработчик пытается увеличить время выполнения работ или сделать более мягкими требования по приёмке своей работы;
  5. Попытаться на этапе приёмки сконцентрироваться на сильных сторонах выполненного проекта и скрыть свои ошибки и не доработки;
  6. Попытаться побыстрее сдать проект и начать новый, или, в крайнем случае, обеспечить себе аутсорсинг.

Подход Заказчика в первую очередь характеризуется:

  1. Попыткой получить, как можно больше от Разработчика и за меньшие деньги;
  2. Попытками в процессе разработки проекта изменить или уточнить пункты первоначального ТЗ;
  3. Во время приёмки попытаться получить как можно больше документации, и найти ошибки разработчика;
  4. Постараться за счёт Заказчика не только исправить выявленные в процессе приёмки ошибки, но и внести очередные изменения в проект.

Поэтому использование внедрения, вместо разработки имеющего значительно меньше шансов на успех проекта – всегда желательно для Исполнителя. Вышеуказанный вариант конечно наиболее актуален, если разработку проекта ведёт сторонняя организация. На самом деле при заказе действительно сложного проекта (а построение ЦОД именно к таким проектам и принадлежит) у сторонней фирмы, совершенно необходимо участие специалистов Заказчика, как минимум на начальных стадиях проекта. Действительно никто не знает так требования к создаваемому ЦОД, как специалисты Заказчика. Конечно Заказчик, как минимум должен иметь возможность контролировать выполнение проекта, точнее иметь информацию о сроках каждого из этапов, ходе его выполнения, а так же не просто участвовать в приёмке проекта, но и участвовать в написание программы испытаний. Только в этом случае возможна достаточно точная формулировка Тех. задания, оперативное решение возникающих вопросов, всеобъемлющая проверка полученного результата.

Существуют два варианта решений исполнения проекта по построению ЦОД. Первый предполагает выполнение проекта своими силами, а второй возлагает эти обязанности на стороннего исполнителя. В чистом виде такие схемы встречается редко. Практически всегда построение таких систем совместная работа Исполнителя (или нескольких Исполнителей) и Заказчика. Но всё упирается в вопрос, кто будет руководить проектом. Казалось бы, кому, как не Исполнителю давать такие права, но… Участие в написании ТЗ одновременно Заказчика (так как только он знает все требования к своему ЦОД) так и Исполнителя (т.к. если не привлекать Исполнителя, то Заказчик вполне может написать такое ТЗ, которое вообще никто не сможет реализовать) позволяет выработать в процессе обсуждения достаточно точное представление о системе, которая будет создаваться, и о программных средствах, которые должны применяться. Т.е. специалисты, участвующие в написании ТЗ становятся на момент окончания его написания самыми компетентными в части конкретных требований для проекта, выполняемого для конкретного заказчика. Сразу отвечаю на возможные вопросы о совместном написании ТЗ. Заказчик при разработке больших проектов может в одиночку написать только Предварительное ТЗ, годное максимально только для проведения конкурса при поиске Исполнителя. А совместно написанное ТЗ с утрясёнными между Исполнителем и Заказчиком спорными вопросами будет служить основным документом при приёмке ЦОД, так как на основе ТЗ будет писаться «Программа и методика испытаний».

Поэтому одной из основных ошибок у Заказчика является устранение от работы специалистов участвующих написании ТЗ и эпизодическое участие в эскизном и рабочем проекте только узких специалистов при решении частных вопросов. Специалисты, участвующие в работе по реализации крупных проектов должны у Заказчика находиться в отделе комплексных работ. И именно они должны привлекать в случае необходимости всех специалистов по отдельным направлениям. В этом случае, специалисты комплексного отдела будут в курсе всех «тонких» мест проекта и сам проект получит большие шансы на успешное завершение. Так же специалисты комплексного отдела должны участвовать в приёмке работы Заказчика, т.к. постоянно следя за ходом работ, они будут в курсе всех его проблем.

Замечание по поводу работ относимых к компетенции комплексного отдела.

Неверно думать, что загрузка комплексного отдела ограничится только участием в крупных проектах, которых у Заказчика обычно не очень много. Большие проекты существуют не сами по себе. Обычно каждый проект требует своего расширения, стыковки с различными подсистемами, внесения изменений всвязи с вновь появившимися задачами. Именно в решении этих вопросов и пригодятся специалисты-комплексники. Предыдущее касалось не только больших проектов, ведь необходимо понять, что только внедрения отдельных продуктов не затрагивающие большое количество сотрудников Заказчика, возможно внедрять, минуя комплексный отдел.

Если мы обратимся к опыту реализации больших проектов, то заметим, что большие организации (например, банки), или те, специализация которых связана с IT, сами руководят проектами по созданию своих ЦОД.

Подведение итогов по этапам обоснования и составления ТЗ

Из изложенного выше можно сделать вывод:

  1. Говоря о создании ЦОД нужно в первую очередь расставить приоритет требований которым он должен будет удовлетворять.
  2. После расстановки приоритетов необходимо взять за основу один из стандартов, требованиям которого вы будете следовать. (Я бы советовал использовать TIA-942, но нельзя забывать, что он не рассматривает вопросов эксплуатации.)
  3. Все отступления от стандарта в лучшую или худшую сторону должны быть обоснованны.
  4. Для составления ТЗ необходимо задействовать свой отдел комплексных работ (или создать его), т.к. с вашей стороны нужны люди персонально заинтересованные в успешной реализации проекта и которые будут курировать все работы с Исполнителем.

Если вы заметили, что в этой части я рассмотрел вопросы до начала написания ТЗ, подчеркнул, что писать ТЗ нужно обязательно с Исполнителем, а о выборе исполнителя ничего не написал. Дело в том, что выбор Исполнителя отдельная и ответственная задача. И если очень кратко об этом упомянуть, то обычно выбор разбивается на 2 этапа:

  1. Определение круга претендентов для решения задачи построения вашего конкретного ЦОД.
  2. Анализ представленного фирмами материала и уточнение вопросов при личных встречах.

Обычно проще выбрав несколько фирм реализующих успешные проекты в этой области предоставить им предварительное ТЗ (такое ТЗ возможно составить специалистам Исполнителя). Затем кандидатов на построения ЦОД просят составить небольшой документ, вкратце описывающий все подсистемы ЦОД и процесс его эксплуатации. Обычно по полноте рассматриваемых вопросов, обоснованности решений и результатами личного общения выбор Исполнителя становится очевидным. И ещё от себя добавлю: если вам при личной встрече обещают всё и за дёшево (во всяком случае, существенно дешевле, чем у других) это повод не поверить и ещё раз проверить реальность и качество выполненных фирмой проектов. Кроме того часто в действительно сложных проектах построения ЦОД исполнение каких то его подсистем требует привлечения других фирм. В этом случае сразу нужно договариваться о том, что одна из фирм является для этого проекта системным интегратором и все технические и другие вопросы вы решете с ней. Ничего нет хуже «кусочной» реализации проекта. А то при любой неприятности всё будет как бессмертном монологе Райкина «К пуговицам претензии есть?».

Ну, вот заказчик выбран. Началась работа над проектом. Вы начали совместно с Исполнителем разрабатывать детальное ТЗ. Но будет ли проект удачен? Об этом я хочу поговорить в следующей части.

Об авторе

Главный специалист ГУП ВЦКП «ЖХ» Александр Кругляк

Источник