2020/10/09 16:19:24

Надежность ЦОД

В современных условиях, когда корпоративные центры данных становятся без преувеличения «сердцем» и «мозгом» оцифрованного бизнеса, требования к их надежности еще более возрастают. В этих условиях нынешним информационным структурам становится тесно в рамках стандартного уровня надежности Tier III, хотя он и допускает чуть более полутора часов простоя в год. Какие дополнительные требования они выдвигают? И каким образом индустрия ЦОДостроения отвечает на них?

Статья входит в обзор "Технологии для ЦОД"

Содержание

Индустрия ЦОДостроения достаточно консервативна. Аспекты бесперебойного функционирования центров обработки данных давно формализованы профильным институтом Uptime Institute, который разработал классификацию уровней надежности и соответствующую сертификацию ЦОДа.

«
Она охватывает стадию сертификации проекта ЦОД (Design Documents), фактическую проверку соответствия требованиям и утвержденному проекту инженерных систем ЦОД (Facility Infrastructure), а также проверку процессов эксплуатации ЦОД (Operational Sustainability),- рассказывает Павел Горюнов, технический директор сети Data-центров КРОК.
»

По его оценкам, индустрия ЦОД уже достаточно зрелая, и с течением времени решения для их создания кардинально не меняются. Уровень отказоустойчивости сегодня стал такой же стандартной характеристикой ЦОД, как его площадь или энерговооруженность.

«
По сути, на непрерывность работы Data-центра влияют два основных фактора: зарезервированная инженерная и программно-аппаратная инфраструктура, в основе которой лежат надежные и проверенные системы, а также грамотно выстроенные процессы эксплуатации. В комплексе все это могут предложить провайдеры, обладающие статусом Tier III Gold Certification of Operational Sustainability,- говорит Павел Горюнов.
»

Дмитрий Чиндяскин, руководитель технической дирекции «АйТеко», поясняет:

«
Главным фактором обеспечения бесперебойной работы является резервирование всех ключевых компонентов ЦОД, начиная с отдельных компонентов отдельного сервера в отдельной стойке и заканчивая резервированием всего ЦОД путем создания резервной площадки с возможностью переключения на нее в случае серьезных нештатных ситуаций.
»

Однако аналитики Uptime Institute в своем недавнем исследовании индустрии ЦОД Data Center Industry Survey Results 2020 указывают в числе самых важных трендов ужесточение требований к отказоустойчивости, которые нацелены на более строгое и прозрачное обеспечение сквозной, целостной отказоустойчивости ЦОД.

«
Действительно, заказчику интересна не только бесперебойность работы ЦОДа в целом, но и работа его отдельных приложений и сервисов,- поясняет Владимир Леонов, технический директор АМТ-ГРУП.- С учетом этого, в зависимости от выдвигаемых требований и бюджета заказчик может выбирать различные схемы обеспечения отказоустойчивости, строить резерв либо на основе дополнительного оборудования либо, дублируя части системы между несколькими ЦОДами.
»

Распределенная отказоустойчивость

Актуальная тенденция создания территориально-распределенных ЦОДов накладывается на традиционный метод достижения катастрофоустойчивости и высокой доступности за счет создания структуры из нескольких ЦОДов, дублирующих и дополняющих друг друга.

Один из вариантов топологии катастрофоустойчивого ЦОДа

Каждый ЦОД играет при этом свою роль, но за счет эффекта масштаба при максимальном использовании всех ресурсов этой структуры ЦОДов можно повысить эффективность конструкции. Например, в типичной схема распределенного Data-центра локальные сети (LAN) и сети хранения данных (SAN) площадок связаны между собой. Сегменты локальных сетей, к которым подключены серверы, объединены в домены L2, и это позволяет прозрачно для приложений перемещать IP-адреса серверов между площадками. А SAN-серверы, благодаря объединению, могут использовать ресурсы хранения данных разных площадок. Кроме того, с точки зрения пользователя отдельные ЦОДы выглядят как единая система, предоставляющая услуги через единый интерфейс.

Классификация распределенных ЦОД по расстоянию между площадками. Источник: компания RUVDS

Появление новой классификации ЦОДов (региональные, периферийные и т.д.) привело к необходимости классифицировать ЦОДы еще и по расстояниям, отделяющим друг от друга ЦОДЫ разных уровней в единой территориально-распределенной сети.

Табл. Характеристики распределенных ЦОДов

Источник: компания RUVDS

Новые структуры ЦОД меняют представления об обеспечении надежности. Так, эксперты отмечают, что мировые интернет-гиганты строят свои ЦОДы по принципу TIER 0, то есть используют архитектуру распределенной отказоустойчивости. Это дает возможность обеспечивать резервирование ресурсов, необходимых для обеспечения высокой надежности предоставляемых сервисов, при наименьших затратах. Образно говоря, уровень TIIER III заменяется «топологическим интеллектом».

По мнению экспертов IDC, к 2020-2021 годам автономность критически важной ИТ-инфраструктуры станет одним из основополагающих принципов работы половины Data-центров. Для ее обеспечения будут все шире применяться так называемые «интеллектуальные периферийные узлы».

В русле этих представлений периферийный ЦОД (Edge) обладает «интеллектом», необходимым для первичного анализа данных, и по этой причине менее загружает каналы связи, центральный ЦОД или облако. Например, по такому принципу организована работа системы управления инфраструктурой ЦОД EcoStruxure IT компании Schneider Electric.

Основа этой платформы – модуль, который собирает данные. Он содержит шлюз, устанавливаемый на Edge-систему и агрегирующий данные. Именно он выполняет первичный анализ происходящего, но «наверх» отправляет далеко не все сведения. Так он поступает только в случае сбоя. Если же все работает в штатном режиме, то данные могут пересылаться, скажем, раз в 15 минут или полчаса.

По оценкам Uptime Institute, еще в прошлом году около 70% компаний в мире используовали такой подход в том или ином объеме с целью обеспечения параллельной синхронной работы приложений на нескольких территориально-разнесенных площадках. Можно даже говорить о массовой популярности такого подхода к организации работы приложений, хотя, конечно, он требует серьезного внимания к поддержке гарантированного времени осуществления транзакций. Кроме того, нужно тщательно просчитывать требуемый уровень резервирования на каждом уровне такого распределенного ЦОДа и варианты эффективного резервного копирования. А ведь согласно данным исследования, проведенного в прошлом году компанией Xelent, только 7% российских компаний имеют собственный план аварийного восстановления.

Стандарт Tier IV

Ключевой аспект современного ЦОДа – его распределенную структуру - учитывает стандарт Tier IV.

«
Data-центр уровня Tier IV по классификации Uptime Institute подразумевает отказоустойчивую инфраструктуру,- говорит Сергей Мищук, директор по продуктовому развитию в области ЦОД и облачных сервисов в «Ростелеком-ЦОД».

»

Tier IV — это единственный уровень с отказоустойчивостью, в связи с чем он так и называется: Fault tolerant infrastructure. Фактически этот уровень подразумевает отказоустойчивую топологию сети, для него обязательны секционирование и непрерывное охлаждение.

Табл. Основные отличия разных уровней Tier

Источник: DataLine


Таким образом, на уровне Tier I используется минимальное количество оборудования для работы ЦОД (N), то есть резерва нет.

На уровне Tier II инженерное оборудование резервируется по схеме N+1.

На уровне Tier III по схеме N+1 резервируется инженерное оборудование и пути дистрибуции: кабели питания, трассы, трубопроводы.

На уровне Tier IV: если случается единичный отказ любого оборудования, все равно остается N активных компонентов.

Сергей Мищук поясняет, что отказоустойчивость при этом достигается с помощью автоматизации переключений между основными и резервными элементами инженерных систем:

«
Если в Tier III допустимо, что для такого переключения потребуется вмешательство сотрудников, то на уровне Tier IV переключения отсутствуют или происходят автоматически.
»

Кроме того, в Tier IV по-другому проектируются пути дистрибуции: кабели питания, трассы, трубопроводы. В Tier III происходит их резервирование, а в Tier IV обязательно еще и секционирование, то есть пути дистрибуции должны проходить в разных помещениях или в закрытых огнезащищенных коробах. Фактически пересекаться они будут только в машинном зале.

Еще одно требование к дата-центрам Tier IV — непрерывное охлаждение.

«
Уровень Tier III формально допускает незначительно повышение температуры в машинном зале, когда идет переключение между основным и резервным кондиционером или чиллером. А в Tier IV повышение температуры в машзале не допускается даже теоретически,- рассказывает Сергей Мищук.
»

Соответствующие точные расчеты должны быть проведены еще на этапе проектирования ЦОДа.

Для сертификации ЦОДа по стандарту Uptime Institute нужно пройти проверку по трем программам: сертификация проектной документации ЦОД, cертификация построенного ЦОД и cертификация эксплуатационной устойчивости по стандарту Tier.

Сегодня в России еще нет дата-центров, которые бы получили все три сертификата на Tier IV. Летом «Ростелеком-ЦОД» объявил, что приступил к строительству на юге Москвы Data-центра с уровнем надежности Tier IV. Площадка вместит 2 тыс. стоек по 5 кВт каждая, а общая мощность дата-центра составит 17 МВт.

«
Такая сертификация — это вызов. Мы должны развиваться и чувствуем в себе силы, чтобы осваивать этот уровень первыми,- заявляет Секрей Мищук.- Важно, что это позволяет повышать уровень сервиса и надежность ЦОДа без значительного повышения капиталовложений. Вполне возможно, что это создаст прецедент для других коммерческих ЦОДов.
»

Надежность гибридных ЦОД

Некоторые функции резервного Data-центра может взять на себя публичное облако. Размещение приложений в публичных облаках с целью повышения гибкости и оптимизации затрат на ИТ-инфраструктуру часто становится наиболее разумным решением.

Согласно данным исследования систем восстановления после сбоев и прогнозу на 2018 – 2025 гг. (Disaster Recovery Solutions Market Size, Share & Trends, 2018 – 2025), в 2016 г. гибридное облако доминировало на рынке при развертывании новых систем, и сответствующий рынок оценивался в 763,4 млн. долл. Популярность этой схемы объясняется, в первую очередь, тем, что развертывание решений для аварийного восстановления через гибридное облако дает возможность использовать программное и аппаратное обеспечение на локальной площадке, а службы восстановления - в облаке. Она также позволяет использовать сочетание виртуальных облачных серверов и выделенной инфраструктуры хостинга. Это позволяет организациям значительно сократить расходы, связанные с установкой решений для аварийного восстановления.

Плюс к этому развертывание гибридного облака устраняет избыточность и повышает отказоустойчивость, обеспечивая гибкую, надежную, масштабируемую и экономичную архитектуру с упрощенным резервным копированием и восстановлением бизнес-данных и приложений.

«
За последние пару лет мы и заказчики Softline на себе оценили важность гео-распределенных площадок из-за разных ситуаций с ЦОД, в которых мы строим свои решения, например, происходили пожары, отключение сетей и т.д.,- рассказывает Юрий Новиков, руководитель направления развития облачных технологий Softline.- Гео-распределенная инфраструктура позволила нам обеспечить бесперебойность пользования облаками.
»

У компании Softline –портфель решений, который дает возможность делать back-up и решения уровня disaster recovery при использовании глобальных облаков.

«
В случае сложностей с каналами связи или возникновения рисков наша компания создает для заказчиков резервную инфраструктуру и работоспособность облаков сохраняется,- добавляет Юрий Новиков.
»

Быстрое восстановление после сбоев в ЦОД

По прогнозам компании Grand View Research, к 2025 г. объем мирового рынка решений для аварийного восстановления достигнет 26,23 млрд. долл. В вышеупомянутом исследовании Disaster Recovery Solutions Market Size, Share & Trends содержится прогноз о том, что управляемые услуги станут самым быстрорастущим сегментом в течение всего прогнозного периода (до 2025 г.). Рост услуг аналитики объясняют дополнительными функциями, такими как удаленный мониторинг, низкие затраты и управление ИТ-инфраструктурой с помощью удобных тарифных моделей подписки.

Услуга аварийного восстановления серверов DRaaS (Disaster Recovery as a Service) предполагает, что провайдер обеспечит репликацию серверов компании на удаленную площадку с возможностью развертывания в случае аварии. Иными словами, в облаке будет создана копия серверов компании. Если же инфраструктура клиента перестанет работать, можно будет запустить копии в облаке и за считанные минуты продолжить работу. При этом все виртуальные серверы останутся доступны по сети, например, благодаря автоматически создаваемому L2 VPN-туннелю.

Схема работы DRaaS решения Cloud4Y

Проблемы аварийного восстановления в гибридных ИТ-инфраструктурах

Вопросы обеспечения надежности гибридных структур ЦОД – один из аспектов более общей задачи управления гибридной цифровой инфраструктурой (Hybrid digital infrastructure management, HDIM). Аналитики Gartner в своем исследовании ключевых тенденций 2020 года в области ИТ-инфраструктуры и ее поддержки указывают, что масштаб и сложность управления инфраструктурами HDIM становится все более актуальной проблемой для компаний, делающих ставку на ИТ. Однако HDIM — это новая область, предупреждают в Gartner, и организациям следует с осторожностью относиться к поставщикам, которые уже сегодня предлагают единое решение для всех задач гибридного управления. Gartner ожидает, что еще несколько лет понадобится для того, чтобы поставщики продуктов класса HDIM довели свои разработки до уровня, который реально позволит компаниям получить действенные инструменты для контроля своих цифровых инфраструктур.

В Gartner поясняют проблемы нынешней ситуации на примере. Современная инфраструктура находится в разных местах: у колокейшн-провайдеров, в локальных Data-центрах, на периферийных узлах и в облачных средах. Проблема заключается в том, что гибридная ИТ-структура способна нарушить текущие схемы аварийного восстановления. Это связано с тем, что многие организации в настоящее время полагаются на предложения сервисов (xaaS) и зачастую упускают из виду дополнительные функции, необходимые для обеспечения правильных уровней устойчивости системы. Более того, по прогнозам Gartner, к 2021 г. основной причиной в 90% проблем с доступностью в облаке (время безотказной работы) станет отказ клиентов от применения возможностей резервирования данных, которые предоставляются поставщиком облачных услуг.

Иными словами, планы аварийного восстановления, разработанные для традиционных систем, с большей степенью вероятности могут вступать в противоречие с требованиями новых гибридных инфраструктур. Индустрии ЦОД еще только предстоит найти эффективные решения этой проблемы. А пока предлагается традиционный способ, хорошо зарекомендовавший себя ранее, - заложить обеспечение устойчивости систем ЦОД сбоям на этапе проектирования модернизированной системы. Что же касается практического уровня, то эксперты IDC ожидают, что к 2020-2021 годам для обеспечения гарантированного высокого качества обслуживания клиентов в ЦОДах повсеместно будут внедряться системы эффективного мониторинга вычислительной производительности, обмена трафиком данных и других ресурсов ЦОДа.