2011/05/31 13:42:39

Техническое обслуживание (ТО) систем бесперебойного и резервного электроснабжения ЦОД

Бесперебойное снабжение критических нагрузок чистой электроэнергией является задачей каждого центра обработки данных (ЦОД). Для достижения этой цели необходимо не только создать и выполнить хорошо проект, а также необходимо обеспечивать правильное техническое обслуживание (ТО) и выполнять тестирование системы электроснабжения. В идеале, это должно выполняться без отключения критических нагрузок или потенциального риска возникновения подобной ситуации.

Каталог TAdviser Дата-центров России и технологий для дата центров.

Содержание

Однако, некоторые администраторы ЦОД иногда рассматривают техническое обслуживание как ненужное дело и дополнительные расходы. Это особенно стало проявляться в нынешних экономических условиях, где каждая статья расходов рассматривается с точки зрения ее возможного уменьшения или, что еще лучше, вообще ее ликвидации. Тем не менее, периодическое техническое обслуживание необходимо для поддержания проектного уровня надежности дата центра и бесперебойной работы критических нагрузок. Конечно, для этого в цепи электропитания необходимо предусматривать некоторый уровень избыточности, который бы позволял работать дату центру во время технического обслуживания (т.e. должен быть обеспечен уровень надежности, как минимум, tier 2, а в некоторых случаях tier 3 или tier 4) не прерывать работу.

Чем выше уровень избыточности системы электропитания, тем меньше вероятность того, что потребуется отключение критического оборудования во время планового технического обслуживания. Тем не менее, имеет смысл устанавливать избыточное оборудование только в случае, если оно обслуживается надлежащим образом. Часто ненадлежащие процедуры технического обслуживания и человеческий фактор становились причинами отключения систем электроснабжения, даже в ЦОД с уровнями надежности tier 3 и tier 4.

При условии наличия уровня избыточности, который был бы достаточным для проведения технического обслуживания, давайте рассмотрим основные компоненты и передовую практику технического обслуживания систем резервного электроснабжения.

  • Главный вводной распределительный шкаф
  • Генераторы
  • Переключатель для включения генераторов на параллельную работу
  • Автоматический ввод резерва (АВР)
  • Главный распределительный щит
  • Щит сервисного байпаса для ИБП
  • Источник бесперебойного питания (ИБП)
  • Аккумуляторные модули или другие источники энергии для ИБП
  • Распределение нагрузок
  • Планирование, инструкции, обучение и контроль

Главный вводной распределительный шкаф

Главный вводной распределительный шкаф – это первый элемент в системе электроснабжения ЦОД. В этом месте осуществляется ввод линий электропитания дата центра. Хотя обычно этот шкаф не трогают во время нормальной работы, рекомендуется раз в три месяца или раз в полгода, но не реже, чем раз в год, проводить его визуальный осмотр и проводить измерения температуры, применяя для этих целей тепловизор или инфракрасный бесконтактный термометр.

Резервные источники электроснабжения (ДГУ)

Операторы ЦОД признают необходимость в регулярном тестировании и техническом обслуживании резервных источников электропитания, в качестве которых, в основном используются дизель-генераторные установки (ДГУ). В некоторых дата центрах за пределами России система автоматически один раз в неделю запускает стандартную программу проверки ДГУ. Важно, чтобы персонал был информирован и присутствовал при плановом обслуживании и тестировании резервного источника электроснабжения. Практически любой тип тестирования требует постоянного контроля. Например, не рекомендуется сразу после включения генератора и запуска тестирования срабатывания АВР заниматься другими делами. Необходим контроль за срабатыванием и отработкой системы резервного электропитания, чтобы, в случае возникновения проблемы, можно было перейти на обычный режим работы.

Если кому-то скучно просто смотреть на работающий генератор в течение получаса или часа, можно прислушаться к работе генератора с целью выявления необычных шумов и осмотреть дизель-генераторную установку с целью выявления протечек масла, топлива и других жидкостей. Необходимо снять показатели напряжения и тока, а также определить количество оборотов двигателя и частоту. Проверьте и запишите показания датчиков давления масла и температуры в двигателе, а также измерьте температуру на определенных участках генератора с помощью инфракрасного термометра или тепловизора. Запись этих показателей может послужить исходным материалом для последующего анализа. Эти показания можно использовать для выявления проблем и облегчения профилактического осмотра критических или подозрительных участков установки. Техническое обслуживание, например замена масла и фильтров, проводится после того как ДГУ проработал некоторое количество часов, а также в течение определенного интервала времени. Периодичность технических осмотров указываются производителем данного оборудования. Дополнительно, рекомендуется, как минимум, один раз в полгода проверять качество дизельного топлива.

Переключатель для включения генераторов в параллельную работу

На крупных центрах обработки данных с несколькими генераторами требуется переключатель для включения ДГУ в параллельную работу. Этот дополнительный компонент повышает уровень сложности резервной системы электроснабжения ЦОД, так как система синхронизации переключения генераторов в параллельную работу требует определенных знаний проектирование подобных систем и хорошей квалификации от подрядчиков. Очень важно обеспечить правильную работу системы синхронизации генераторных установок, а ее регулярное тестирование и проверки должны совпадать по времени с техническим осмотром ДГУ. Если не все генераторы работают синхронно, например, не имеют одинаковое число оборотов и не синхронизированы по фазам, то Вы не сможете подключить нагрузку к параллельно работающим ДГУ. Дата центр может быть не подключен к системе резервного электропитания, даже если все генераторы работают, но не синхронизированы.

Конечно, некоторые элементы этой системы синхронизации также входят в системы, установленные на данных генераторах, и как таковые должны включаться в программу технического осмотра данного генератора. Как правило, генератор, АВР и переключатель на параллельную работу должны обслуживаться одним и тем же поставщиком. Рекомендуется в первую очередь обращать внимание на специфические требования данной системы синхронизации, например, поддержка другого переключателя на параллельную работу, а также проводить регулярные визуальные осмотры и проверять температуру.

Автоматический ввод резерва (АВР)

В отличие от большинства типов переключателей, которые, как правило, остаются в одном положении в течение всего своего срока службы, переключатели АВР намного чаще используются для включения, выключения и переключения резервной нагрузки. Поэтому необходимо тщательно следить за контактами и выполнять их своевременное обслуживание и замену. Всякий раз, когда переключатель АВР производит переключение резервной нагрузки, он, в сущности, «съедает» эти контакты в результате искрения, возникающего при включении и прерывании схем высокого напряжения. В большинстве случаев для осмотра и замены контактов необходимо разобрать переключатель АВР.

Также необходимо проводить осмотр электромеханического механизма и проверять его свободный ход, а также удалять грязь.

Для того чтобы произвести полное техническое обслуживание, переключатель АВР необходимо обесточить. Также у переключателя АВР должна быть внутренняя или наружная обходная перемычка, которая будет обеспечивать непрерывное электроснабжение нагрузки во время технического обслуживания. Не во всех переключателях АВР есть эта возможность; в этом случае для обслуживания переключателя АВР необходимо отключить электропитание. Для обеспечения обслуживания переключателя АВР без прерывания электроснабжения нагрузки его обходная перемычка должна включаться в исходные проектные требования. Необходимо раз в три или шесть месяцев проводить осмотры переключателей АВР, и раз в год — техническое обслуживание.Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг

Кроме того, некоторые ЦОД должны будут работать на генераторном питании во время шунтирования ИБП или аккумулятора во избежание возможного отключения централизованного электроснабжения в ходе технического обслуживания, так как ИБП не сможет обеспечивать электроснабжение во время включения генераторов и переключения на резервную нагрузку.

В дополнение к перечисленному выше основному оборудованию, на крупных площадках с альтернативными системами электроснабжения (2N или S+S) может быть один или более секционных прерывателей. Эти автоматические предохранители позволяют блокам питания переключаться на альтернативную систему электроснабжения и обеспечивать одновременную работу обоих этих систем во время технического обслуживания. Как правило, это делается «на ходу» (обе системы находятся под напряжением и должны быть синфазными) для того, чтобы держать критическую нагрузку под током во время переключения источника питания. В разных местах электрической системы можно ставить несколько секционных прерывателей, например, до и после переключателя АВР и даже после ИБП, в зависимости от типа избыточности системы. Это позволяет индивидуально шунтировать или отключать разные участки электрической цепи и в то же время обеспечивать электроснабжение стоек из обоих источников питания. Тем не менее, для того чтобы предотвратить отключение системы от электроснабжения, крайне важно, чтобы эти прерыватели включались только в определенной последовательности и только уполномоченными сотрудниками с высоким уровнем подготовки. Как правило, секционные прерыватели держаться закрытыми для предотвращения возникновения этой проблемы.

Главный распределительный щит

Пройдя через переключатель АВР, электроэнергия подается к главному распределительному щиту. Как правило, этот щит обеспечивает электроснабжение ИБП и кондиционеров, а также освещения и других систем ЦОД. Как и распределительный шкаф, он обычно не открывается во время нормальной работы и его необходимо визуально осматривать и проверять температуру как минимум один раз в год.

Щит сервисного байпаса для ИБП

На входе и выходе ИБП ток проходит через модуль щита сервисного байпаса, а затем подается на критическую нагрузку, поэтому чрезвычайно важно проводить визуальные осмотры модулей и проверять температуру. Иногда в небольших дата-центрах внешние модули щита сервисного байпаса не ставятся для уменьшения расходов на приобретение и монтаж ИБП, или просто потому, что кто-то решил, что раз у ИБП уже есть внутренний байпас, им не нужно покупать внешний байпасный модуль.

К сожалению, это является довольно распространенным явлением в небольших ЦОД, и может создавать серьезные проблемы, в случае если необходимо обесточить или заменить ИБП. Также, в этих небольших ЦОД обычно только один ИБП, поэтому им приходиться отключать критическую нагрузку от системы бесперебойного электроснабжения, когда необходимо выполнить работы с ИБП.

Во многих случаях модули щита сервисного байпаса подбираются для данной ИБП и производятся и устанавливаются производителем данного ИБП. Модули щита сервисного байпаса могут быть снабжены блокирующими ключами системы Керка (Kirk Key Interlocks) и могут иметь обратную связь с пультами управления ИБП для предотвращения неправильной работы с ними. Обычно в договор на сервисное обслуживание ИБП включается и работы по ТО щита сервисного байпаса. Во избежание проблем, которые могут возникнуть в случае возникновения необходимости в безопасном шунтировании ИБП, главному инженеру данной ИТ-площадки должны даваться письменные инструкции по использованию модуля щита сервисного байпаса.

Источник бесперебойного питания (ИБП)

Проверяются электрические соединения внутренних систем, проводится их визуальный осмотр и снимаются температурные показания. Квалифицированные заводские сервисные работники могут также провести диагностику элементов ИБП. В некоторых случаях ИБП можно перевести в режим внутреннего байпаса, а для проведения других тестов или процедур технического обслуживания требуется обесточить ИБП и перевести его в состояние байпаса при помощи модуля щита сервисного байпас. В любом случае, критическая нагрузка будет подвергаться риску аварийного отключения основного источника питания, если отсутствует резервный ИБП. Как говорилось выше, в некоторых ЦОД нужно будет включать резервные генераторы во время сервиса ИБП или технического обслуживания аккумуляторных блоков, чтобы избежать возможности отключения критической нагрузки от системы электроснабжения. Выполняется физическое техническое обслуживание, например, чистка вентиляторов ИБП и замена или чистка воздушных фильтров. Обычно это делается раз в полгода, но не реже одного раза в год.

Аккумуляторные батарейные блоки или другие источники энергии для ИБП

Для того чтобы ИБП был в состоянии обеспечивать электроснабжение критической нагрузки с момента аварийного отключения основного источника питания до момента включения резервного источника электропитания, аккумулированная энергия должна быть готова к немедленному использованию. Эта энергия в большинстве случаев обеспечивается группой аккумуляторных батарей.

Группам аккумуляторов требуется регулярное техническое обслуживание и осмотры на предмет обнаружения коррозии, утечки и разности температур отдельных элементов. Каждый аккумулятор последовательно подключен друг к другу при помощи соединительного кабеля, и каждый кабель необходимо проверять на качество подключения и отсутствие коррозии. В аккумуляторном шкафу напряжением на шине постоянного напряжение 480В сорок 12-вольтовых аккумуляторов и, следовательно, 80 клемм, которые требуют осмотра. Это является дополнением к периодическому тестированию электрического напряжения и внутреннего сопротивления аккумуляторных батарей, также проводятся испытания под нагрузкой.

Помните, что некоторые дата центры должны будут работать на резервном питании во время сервисного байпаса ИБП и аккумуляторов или тестирования нагрузки. Применение резервного источника необходимо для того, чтобы избежать опасности отключения основного источника питания в то время, когда ИБП не в состоянии обеспечивать электроснабжение.

Во многих больших дата центрах есть специализированные системы мониторинга аккумуляторов, которые могут следить за работой отдельного аккумулятора, а не только всей группы аккумуляторов в целом. Это удобно для своевременного обнаружения признаков ухудшения состояния одного аккумулятора. Имейте в виду, что один плохой аккумулятор в блоке может подвергать риску целостность всей группы аккумуляторов. В центрах обработки данных также используются другие виды накопления энергии, например, маховик или так называемый «роторный ИБП». Техническое обслуживание роторных ИБП носит главным образом механический характер, в основном требуется контроль за подшипниками.

Из всех остальных элементов системы электроснабжения аккумуляторы в наибольшей степени нуждаются в техническом обслуживании, тестировании и своевременной замене. В зависимости от типа аккумулятора — VRLA, жидкостные или NiCad – тестирование необходимо выполнять раз в три или шесть месяцев. Если для этой цели не выделяются бюджетные средства, то это мероприятие часто откладывается или игнорируется. Здесь стоит отметить, что, по статистике, неисправность аккумулятора является самой распространенной причиной простоя после, конечно, человеческого фактора.

Испытание под нагрузкой

Испытание под нагрузкой обычно проводится при первоначальном вводе в эксплуатацию ЦОД. Как правило, оно включает все критические участки электрической цепи, которые описаны выше. Тем не менее, как только площадка будет введена в эксплуатацию, будет трудно выполнять испытание под нагрузкой без отключения от электроснабжения, если этот объект не относится к 3 или 4 уровням надежности. Есть разные мнения по поводу необходимости непрерывных испытаний под нагрузкой. Некоторые специалисты настаивают на необходимости регулярных испытаний под нагрузкой. В некоторых больших ЦОД есть блоки нагрузок, и их можно предварительно подключать к ключевым точкам данной электрической системы.

Операторы других ЦОД считают испытание под нагрузкой необязательным, и в нормальных условиях, дополнительным риском отключения электроснабжения, и которое следует проводить только в случае, если какое-нибудь оборудование ведет себя подозрительно или недавно было замено. Это прежде всего касается небольших площадок с 1 и 2 уровнями надежности, в которых необходимо арендовать блоки нагрузок и временно подключать их к электрическим щитам. Конечно, в этих случаях у критической нагрузки должен быть дополнительный источник питания, и переключатели для шунтирования электроэнергии без отключения данной нагрузки, или же ее необходимо будет отключать на время испытания под нагрузкой.

Одной из более обсуждаемых проблем является оперативное тестирование групп аккумуляторов, либо напрямую, либо при одновременном подключении блока нагрузок к ИБП, потому что каждый полный разряд аккумулятора в реальном времени уменьшает рабочий цикл и емкость элементов. Даже после успешного испытания под нагрузкой, один элемент момент выйти из строя на следующий день, и в случае отключения электроснабжения, критическая нагрузка будет потеряна. Единственным способом, который позволяет уменьшить эту потенциальную опасность, является использование нескольких групп аккумуляторов.

Планирование, инструкции, обучение и контроль

Нет необходимости говорить, что в этой статье дается только общий обзор проблем технического обслуживания резервных систем электроснабжения ЦОД. Реальные процедуры технического обслуживания определяются рекомендациями и требованиями каждого производителя и должны выполняться только квалифицированным и подготовленным сервисным персоналом. Кроме того, ключевой персонал ЦОД, например, начальники смены, также должны наблюдать за обычным техническим обслуживанием, которое выполняется сторонними сервисными компаниями и внутренним техническим персоналом, следить за соблюдением соответствующих правил, инструкций и процедур. Персонал должен быть знаком и даже в состоянии выполнять некоторые базовые и аварийные процедуры, например, ручное управление оборудованием, запуск генератора в ручном режиме, а также включение и выключение модуля сервисного байпаса ИБП.

У персонала должны быть подробные письменные инструкции по выполнению этих процедур, которые в случае необходимости необходимо пересматривать или обновлять. Поставщики оборудования или сервисный персонал должны организовывать обучение персонала, а также раз в полгода или раз в год проводить курсы переподготовки. Так как способность внутреннего персонала перейти и работать в ручном режиме, например, включить аварийный байпас, может предотвратить простой в работе дата центра.

Кроме того, подробные письменные инструкции по обслуживанию оборудования, а также контроль штатного персонала за их соблюдением могут предотвратить полную остановку ЦОД. Эти инструкции могут потребоваться в случае если техническое обслуживание придется выполнять новому сервисному персоналу, который еще полностью не освоился с оборудованием и системами, установленными в ЦОД. План действий в аварийных ситуациях необходимо размещать на видных и легкодоступных местах. В них должны быть подписанные изображения переключателей оборудования с описанием последовательности операций, а также их использование в случае возникновения аварийной ситуации. Также следует размещать небольшие, не более одной или двух страниц, инструкции по выполнению аварийных процедур рядом или на самом модуле ИБП, куда также можно включать информацию по ручному управлению системой резервного и бесперебойного электропитания.

Качество и частота технического обслуживания зависит от размера ЦОД и его технического отдела. Организации, в которых есть большой центр обработки данных, установленный в отдельном здании, зачастую располагают намного более квалифицированным персоналом, чем те компании, у которых ЦОД небольшой до 100 квадратных метров. Общая культура и уровень подготовки технического персонала очень сильно различаются. Также, поскольку на выполнение большинства процедур технического обслуживания заключаются сервисные контракты либо с производителями оборудования, либо с одним или более сервисными организациями или субподрядчиками, необходимо, чтобы кто-то из руководства дата центра знал расписание работ, какая работа и кем выполняется, а также кто контролирует данный вид работ.

В каждом ЦОД могут быть разные типы оборудования и различные требования к техническому обслуживанию, однако, на всех площадках необходимо проводить профилактические мероприятия, которые бы не отражались на работе ИТ-оборудования. Некоторые администраторы стараются избегать полных испытаний на преодоление отказов и масштабного технического обслуживания критических систем, так как они потенциально могут пойти «не в ту сторону». Это просто отодвигает риск в день планового технического обслуживания к неизвестному риску еще на 364 дня.

Избегая техническое обслуживание, ИТ-персонал подвергает ЦОД риску простоя из-за ряда своевременно не выявленных нарушений работы, которые не заметны во время нормальной работы, и могут проявляться только в случае отключения основного источника электроснабжения. Надлежащая подготовка, планирование, контроль и инструкции по выполнению процедур технического осмотра, а также поддержка высшего руководства, имеют очень важное значение для того, чтобы нормальное плановое мероприятие не обернулось незапланированным простоем.