Поставщики «облачных» решений: Все выходит из строя. Готовьтесь заранее

width:200px

29.04.11, Пт, 10:32, Мск,

Поставщики облачных сервисов не гарантируют 100% готовности 24х7х365. Пользователи должны сами позаботиться о плане послеаварийного восстановления, системах балансировки нагрузок и распределении данных по нескольким ЦОД.

Отключение электричества в центре обработки данных Amazon и падение служб EC2 (Elastic Compute Cloud) выдвинуло на передний план недостатки отказоустойчивых систем, но Amazon не единственный поставщик «облаков», который не может гарантировать 100% времени готовности.

GoGrid, предлагая вычисления в рамках технологии инфраструктура-как-сервис (IaaS), реализует для клиентов кредитную линию, когда работоспособность сервиса падает ниже 100%. Но это совершенно не означает, что облачный сервис никогда не останавливается.

«Говоря об элементах сервиса, мы ожидаем их готовности на 100%, но если этого не происходит, мы готовы это компенсировать», - говорит генеральный директор и основатель GoGrid Джон Киги (John Keagy). – Все выходит из строя. Клиенты должны понимать: соглашение о 100% уровне сервиса не является 100% гарантией этого уровня».

Клиенты смогут удержать приложения в работе во время простоя ЦОД, если готовы потрудиться и разработать план восстановления после аварии. Клиенты Amazon, не имеющие плана и обеспечения отказоустойчивости, пострадали от простоев на прошлой неделе, в отличие от тех, кто планировал нечто подобное наперед.

«Все это – инфраструктура», - сказал Киги. - Это не платформа как услуга (PaaS) или программное обеспечение как услуга (SaaS). Это сырая инфраструктура, требующая, чтобы пользователь нес определенную ответственность за то, как все это внедряется».

Amazon позволяет размещать приложения в нескольких «зонах доступности» за дополнительную плату, однако не ясно, как далеко находятся друг от друга эти зоны. На прошлой неделе отказы сказались на нескольких таких зонах.

В то время, когда Foursquare, Reddit, Quora, Hootsuite и другие отключились, успех сайта-фотообменника SmugMug демонстрирует - как перспективное планирование может помочь клиентам пережить то, что генеральный директор SmugMug Дон Макаскил (Don MacAskill) именовал «Амазонапокалипсис».

SmugMug распростерлась на три зоны доступности, но решила не использовать сервис Amazon «Elastic Block Storage» из-за «непредсказуемой производительности и рваной надежности», написал Макаскилл в своем блоге.

Если вы размещаете в «облаке» критически важные приложения, советует Макаскилл, разместите их в разных зонах Amazon (Западное побережье и Восточное побережье, к примеру) или у нескольких поставщиков «облака».

Сервис балансировки нагрузок Amazon не работает в разных зонах, так что клиенты должны самостоятельно сделать некоторую дополнительную работу и использовать программное обеспечение сторонних разработчиков, чтобы обезопасить себя, говорит аналитик Gartner Дрю Ривз (Drue Reeves). Размещение приложений у нескольких поставщиков «облака», не является чем-то невозможным, но затруднительно из-за отсутствия стандартов и межоперационной несовместимости.

Джош Одом (Josh Odom), возглавляющий разработку продукта для облачной платформы компании Rackspace, отмечает, что запуск приложения в нескольких ЦОД является лучшим способом гарантировать 100% времени бесперебойной работы. Он считает, что большой проблемой является не само приложение, но его данные. По его словам, любой тип репликации с системами реляционных баз данных является довольно громоздким.

Microsoft недавно анонсировала «Windows Azure Traffic Manager», говоря, что приложение позволит «развернуть приложение между топологически отделенными ЦОД, позволяя распределить рабочую нагрузку между этими ЦОД вкруговую, на основе схем отказоустойчивости и балансировки производительности нагрузки». Сейчас это приложение доступно только в технологическом сообществе, в режиме превью, то есть оно не готово для использования заказчиками.

В то время как Windows Azure Traffic Manager распределяет трафик между несколькими ЦОД, SQL Azure Data Sync также в бета-версии, реплицирует «базы данных на несколько ЦОД, чтобы противостоять потере электропитания, заявили в Microsoft.

Сервис App Engine от Google может перенести приложения и данные из одного ЦОД в другой без потери данных или простоя, в случае отказа ЦОД, говорит менеджер по продуктам Google Грег Д`алесандре (Greg D'alesandre). Google не сообщает, насколько удалены друг от друга центры обработки данных, но говорится: «система разработана так, что нет единой географической точки отказа».

Тем временем Amazon обвиняют в отсутствии ясного пояснения: что на прошлой неделе в действительности пошло не так. Amazon сослалась на «сетевой инцидент», который «включил повторное дублирование» тома хранилища большого объема, создав, таким образом, дефицит емкости и утратив связь с виртуальными машинами.

Торстен фон Эйкен (Thorsten von Eicken), технический директор и основатель RightScale, компании-поставщика услуг, повышающих функциональность сервисов Amazon, сказал, что Amazon «получает F» (негативное отношение. – прим. TAdviser) за общение и неудачное предложение анализа первопричин происшедшего.