Uptime Institute

Компания

Uptime Institute
Институт обеспечивает образовательный обучающий процесс, публикации, консалтинг, сертификацию, конференции и семинары, независимые исследования, внимание к центрам данных предприятий промышленности.

Uptime Institute – один из наиболее известных и пользующихся доверием международных сертификационных институтов, разработавший собственный стандарт надежности центров обработки данных. Данный стандарт вбирает в себя лучший международный опыт построения и эксплуатации ЦОД. В отличие от других принятых в мире квалификаций, стандарты Uptime Institute учитывают, прежде всего, интересы корпоративных клиентов и ориентированы на защиту инвестиций в строительство ЦОД. Такой подход позволяет на этапе проектирования заложить необходимые требования к надежности и безопасности будущего дата-центра, создать оптимальные условия его эксплуатации и тем самым добиться эффективной экономики проекта.

Московский офис

Компания Uptime Institute, классифицирующая дата-центры по уровню надежности, открыла в начале 2013 года московский офис. Помимо сертификации ЦОДов компания занимается консультированием заказчиков при их создании. Именно это станет основной задачей небольшой технической команды под руководством Алексея Солодовникова.

2020: Как поддержать работоспособность ЦОДа, если ключевые сотрудники заразились COVID-19 или сидят на карантине

В марте 2020 года Uptime Institute подготовил рекомендации о том, как реагировать на пандемию коронавируса COVID-19 индустрии ЦОД. Отчет был выпущен с целью помочь операторам объектов критической инфраструктуры подготовиться и ответить на влияние нового коронавируса. TAdviser ознакомился с документом.

Согласно отчету, в таких ситуациях, как пандемия, критически важные объекты сталкиваются с особыми трудностями как из-за риска отсутствия ключевых сотрудников по причине болезни или карантина, так и в силу других продолжительных факторов, которые могут повлиять на способность оператора поддерживать непрерывную работу.

«
Старение персонала в некоторых регионах означает, что, несмотря на все усилия, отрасль центров обработки данных может быть более уязвимой к COVID-19, нежели другие отрасли. Это представляет проблему, учитывая существующую и хорошо документированную нехватку персонала, с которой сталкивается отрасль. Текущие события усиливают необходимость активизации усилий со стороны индустрии, учебных заведений и торговых организаций по укреплению программ подготовки и обучения персонала, - заявляют авторы отчета
»

Несмотря на все усилия, отрасль центров обработки данных может быть более уязвимой к COVID-19, нежели другие отрасли, заявляют в Uptime Institute.

Сходным образом, по их мнению, использование автоматизации и удаленного мониторинга может позволить объектам работать эффективнее и дольше, с меньшей численностью необходимого персонала на объекте.

«
Пандемия может ускорить долгосрочную тенденцию в этом направлении. То же относится к производительности и инструментам удаленной совместной работы, - отмечается в отчете
»

Первым шагом бизнеса в условиях пандемии авторы отчета обозначают защиту площадки предприятия и его персонала. Речь о следующих действиях:

  • пересмотре эксплуатационных процессов;
  • максимальном устранении доступа всех поставщиков, присутствие которых не является необходимым, и отслеживании тех, кто должен присутствовать;
  • пересмотре программы обучения поставщиков и включении в нее обсуждения расширенных процедур охраны здоровья и безопасности и правил работы площадки;
  • приостановке всех несущественных проектов строительства и координации работы с подрядчиками, гарантирующей применение субподрядчикями/поставщиками адекватных мер предосторожности в случае необходимости продолжения проекта;
  • создании отдельного, безопасного входа для всех участвующих в проекте сторон и введении изоляции персонала проекта от эксплуатирующего персонала;
  • обновлении базовых материалов;

«
В то время, когда исполнение проектов и проведение технического обслуживания сокращены, используйте замедленный цикл работ как возможность для пересмотра и обновления планов и технической библиотеки. Это может быть выполнено вне места работы. Поощряйте документирование и передачу знаний от опытного персонала. Это может выполняться в форме аннотированных процедур и руководств видеоконференций между соответствующими сторонами, и т.д., - говорится в отчете
»

  • усилении санитарной обработки;
  • ограничении доступа на критический объект;
  • тестировании всех соединений виртуальной частной сети (VPN) для обеспечения надежного доступа и последующий перевод всего персонала, не отвечающего за критические процессы в ЦОД, на надомную работу;
  • обеспечении доступа через VPN к системе управления зданием (BMS) для удалённого мониторинга ЦОД;
  • предоставлении персоналу подробных инструкций по подключению к VPN-серверам;
  • обеспечении доступа к стандартным эксплуатационным процедурам (SOP) и аварийным эксплуатационным процедурам (EOP) для обеспечения возможности удаленного совместного управления в случае необходимости;
  • проверке точности описания процедур SOP/EOP, а также возможности их корректного исполнения лицами, для которых это не является повседневной деятельностью.
  • рассмотрении возможности отсрочки/отмены всех личных встреч и использовании, в связи с этим, электронной почты, телефонной и аудио/видео конференц-связи;
  • напоминании сотрудникам с помощью вывесок и ежедневных инструктажей об их ответственности за санитарную обработку, а также содействии в этом;
  • готовности к сложностям, вызванным работой со сниженным числом персонала;

«
Разработайте матрицу угрозы недостаточности персонала для различных сценариев невыхода сотрудников на работу. Например, менее чем 25%, 25-50%, 50-75%, 75-99%, 100%. Для каждого сценария суммируйте следующее: влияние на критические и некритические функции бизнеса, элементы реагирования на эксплуатацию ЦОД, воздействие на уровень сервиса и на групповые метрики, - рекомендуется в отчете
»

  • исследовании и тестировании технологий удаленного мониторинга/управления, автоматизации и т.д.;
  • направлении сотрудников с симптомами заболевания на самоизоляцию с указанием работать удаленно в течение последующих 14 дней;
  • рекомендации ухода на самостоятельный карантин на необходимый срок сотрудникам, имевшим тесный контакт с подтвержденным носителем COVID-19;
  • пересмотре назначения критически важных сотрудников и их заместителей и проверке знаний последних о ролях и обязанностях тех, кого им может потребоваться временно заменить;
  • запрете/сокращении всех поездок, не являющихся неотложными;

«
Организациям необходимо составить полную ясность о характере перемещений. Например, короткие местные поездки против более длинных/международных поездок и разработка соответствующих указаний, - пишут авторы отчета
»

  • запрете/сокращении перемещения между площадками;

«
Если такая поездка необходима, предпримите шаги, чтобы убедиться, что вероятность перекрестного заражения минимизирована, поскольку одна площадка может резервировать другую, - советуют авторы отчета
»

  • планировании необходимых визитов для технического обслуживания;

«
Операторы должны заранее спланировать пути реализации технического обслуживания и получить необходимые разрешения, если таковые требуются. Разрешения могут зависеть от приложений/сервисов, выполняемых в ЦОД, - обращают внимание авторы отчета
»

  • пересмотре приоритетов технического обслуживания;

«
Пересмотрите планы обслуживания и расположите по приоритетам: определите, какие задачи могут быть понижены в приоритете, выполнены в последнюю очередь или не выполнены вообще, если эксплуатационный персонал будет сокращен до минимума, - отмечают авторы отчета
»

  • рассмотрении последствий отложенного обслуживания в силу возможного увеличения им риска выхода из строя компонентов или систем;

«
Всегда имейте в распоряжении план реагирования на любую значительную проблему, по мере необходимости координируя работу с поставщиками, чтобы быть уверенными, что проблемы могут быть решены. Если проблему выхода оборудования из строя нельзя решить своевременно, убедитесь, что процедуры безопасного отключения и изолирования оборудования и цифровой инфраструктуры достаточно надежны для нейтрализации потерь из-за отказавшего оборудования. По мере хода времени и остающихся ограничений пересматривайте отложенные задачи и определяйте, повышают ли продолжающиеся задержки риски вышеобоснованных допусков, - пишут авторы отчета
»

  • создании команд ответственного персонала основной и резервной площадки и запрет перекрестных контактов между их членами;
  • запрете близкого взаимодействия между сменами;
  • рассмотрении назначения по крайней мере одного самоизолированного человека по каждой позиции для каждой смены для вызова при чрезвычайной ситуации;
  • двухнедельной ротации для рабочих групп, работающих в смену;
  • избегании совместного использования рабочего пространства.

«
Большинство ЦОД ограничило доступные рабочие пространства для персонала. Если возможно, назначайте конференц-залы или иные помещения для использования персоналом смены на переменной основе. Настройте пульты системы управления зданием (BMS) и доступ к сети так, чтобы смены не входили в рабочие пространства друг друга, - рекомендуется в отчете
»

  • избегании совместного использования оборудования;
  • рассмотрении возможности внедрения системы отслеживания контактов;
  • подготовке к экстренному размещению персонала в ЦОД;

«
Ежедневно регистрируйте информацию о состоянии здоровья и местонахождении персонала, представителей поставщиков и прочих вовлеченных лиц с целью отслеживания возможного воздействия вируса или любых симптомов, - говорят авторы отчета
»

Вторым шагом бизнеса в условиях пандемии авторы отчета обозначают его готовность к данному явлению. Она включает в себя следующие действия:

  • разработку конкретного плана готовности к пандемии.

Данный план должен включать многоуровневое реагирование и четко определять действия, которые необходимо предпринять на каждом уровне, а также обстоятельства, ведущие к реализации следующего уровня. Помимо того, план должен предусматривать ситуации, когда персонал может оказаться неспособен получить доступ или, напротив, покинуть площадку в кратчайший срок.

  • консультацию со страховыми компаниями и юристами по таким вопросам, как требования к уборке, соглашения об уровне оказания сервиса (SLA), оповещения и т.д.
  • оценку влияния на ИТ-сервисы;

«
Реагирование на COVID-19 может влиять на интернет-трафик, рабочие нагрузки и требования доступности для некоторых клиентов. Операторам рекомендуется обсудить с клиентами, как внутренними, так и внешними, любые возможные влияния на их работу, в особенности при планируемых обновлениях или миграциях систем, наращивании мощностей, а также вероятные задержки тех проектов, которые могут повлиять на работу бизнес-подразделений и исполнение задач, - говорится в отчете
»

  • поддержку коммуникаций с персоналом, клиентами и партнерами;
  • отслеживание общественных информационных ресурсов с целью информирования персонала о текущем состоянии пандемии и лучших практиках поддержания безопасной и здоровой рабочей среды;
  • обеспечение персонала четкими указаниями по политике компании и официальным положениям в отношении проявления симптомов заболевания возможного заболевания, порядка и продолжительности самостоятельного карантина, предоставления отпуска по болезни/регулярного оплачиваемого отпуска, страховому покрытию и т.п.;
  • информирование персонала о текущем уровне реагирования и его влиянии на повседневную деятельность;
  • готовность к нарушениям в цепочке поставок;

«
В дополнение к ресурсам, основным для бизнес-функций, обеспечьте соответствующий уровень поставок продукции, сокращающей распространение возбудителей инфекции: дезинфицирующие салфетки, дезинфицирующее средство для рук, маски, перчатки, бесконтактные термометры, подходящие чистящие средства для различных типов оборудования и т.д. Также рассмотрите потенциальное долгосрочное нарушение в цепочке поставок критических запчастей и предметов потребления. Компоненты, производящиеся в Китае или других регионах, на которые значительно повлиял вирус, могут оказаться малодоступными в течение многих месяцев, - рекомендуют авторы отчета
»

2015: Uptime Institute отменил «бумажную» сертификацию

13 июля 2015 стало известно об изменении правил сертификации для коммерческих дата-центров. Этим организация пытается бороться с неправомерным использованием ее дипломов в маркетинговых целях.

Uptime Institute оценивает уровень надежности ЦОДов на разных этапах их существования: можно отдельно получить сертификат для проекта строительства (Tier Certification of Design Documents) и готовой площадки (Constructed Facility). Проблема в том, что в ходе работ многое может измениться и результат строительства будет сильно отличаться от проектной документации. В итоге дата-центр, проект которого (на основании только документов) получил уровень надежности Tier III, далеко не соответствует этому уровню в реальности.

Но наличие сертификата Uptime Institute на проект дает ему основание гордо заявить об уровне Tier III ради привлечения клиентов и улучшения продаж (разумеется, речь идет о коммерческих ЦОДах, предоставляющих облачные сервисы или услуги колокации). Таким образом, компания вводит в заблуждение заказчиков, не понимающих разницы между сертификатами, заставляя их платить за то, чего они не получают. По мнению ряда экспертов, такая практика – открытый обман, поскольку заказчики считают построенный дата-центр соответствующим критериям сертификации, что на самом деле не так.

Сложившаяся ситуация вызывала критику Uptime Institute со стороны отрасли: по словам спикера организации Мэтта Стэнсберри, в Uptime получали массу жалоб от провайдеров услуг дата-центров, которые потратились на дорогостоящую сертификацию и были вынуждены конкурировать на рынке с теми, кто не провел эту процедуру для площадки, но заявлял о высоком уровне надежности. И первым шагом в борьбе с злоупотреблениями стал установленный в 2014 г. двухлетний «срок годности» для сертификатов на проект. Это означало, что после сертификации Design Document компания должна была в течение двух лет построить дата-центр и подтвердить уровень готовой площадки – в противном случае она теряла сертификат на проект.

Следующий шаг, по словам Стэнсберри, отмена с 1 июля 2015 года сертификатов на проект для коммерческих дата-центров. «Основная цель этого, – поясняет он, – не дать использовать сертификат проекта в маркетинговых целях, не пройдя сертификацию реальной площадки. Ведь между планом и итогом строительства может быть множество расхождений».

Uptime Institute не будет выдавать документов или размещать на своем сайте список коммерческих ЦОДов, сертифицирующих проект строительства. Речь идет только о компаниях, предоставляющих услуги хостинга, облаков, колокации и т.д. сторонним заказчикам, и только о дата-центрах в Северной Америке. Изменения вступают с силу с 1 июля 2015 года, и они не затронут сертификатов, полученных до этой даты (точно так же сертификаты, выданные до введения ограничений на срок их действия, не аннулируются).