Резервное копирование `больших данных`: 10 вопросов по поводу дедупликации
Всего несколько лет назад дедупликация данных представляла собой особую функцию, являвшуюся опциональной для корпоративных систем хранения и использовавшуюся в основном при резервном копировании и архивировании данных. В дальнейшем ей нашлось применение в облачных шлюзах для исключения излишних блоков данных еще до того, как они будут помещены на дисковый массив или в виртуальную ленточную библиотеку. Теперь, когда это становится само собой разумеющейся интегрированной функцией унифицированных компьютерных систем, необходимо распространять знания о способах наиболее эффективного использования дедупликации. Предлагаемое слайд-шоу демонстрирует свежий подход к некоторым вопросам, которые специалисты по хранению или ИТ-менеджеры должны задать своим поставщикам хранилищ данных. Информация предоставлена журналу eWeek главным технологом компании Sepaton Джеффом Тофано. ПО хранения, выпускаемое компанией Sepaton, масштабируется для высоких нагрузок и работает на оборудовании потребительского класса.
Как повлияет дедупликация на производительность резервного копирования?
Высокая производительность важна для крупных предприятий, которым необходимо перемещать огромные и растущие по экспоненте объемы данных в защищенную среду резервного копирования в отведенные для этого небольшие отрезки времени. Понимание различий в производительности каждой технологии дедупликации, особенно с учетом их эволюции, играет большую роль при выборе наиболее подходящей из них для конкретной среды.
Не снизит ли дедупликация скорость восстановления данных?
Рассчитайте время, необходимое для восстановления файлов, резервные копии которых были созданы за последнюю неделю (наиболее часто встречающийся запрос на восстановление данных). Поинтересуйтесь у производителя, доступна ли по его технологии последняя резервная копия для немедленного восстановления и быстрого сохранения на магнитной ленте.
Как будут масштабироваться объем и производительность по мере роста предприятия?
Определите, какой объем данных вы сможете хранить с помощью дедупликации в одной системе при ваших политиках и с учётом выигрыша в результате ей использования, ваших типов данных и темпов увеличения объема. Оцените последствия превышения этого объема. Например, если при его превышении вам потребуются дополнительные системы для хранения резервных копий, примите во внимание расходы на преодоление сложностей администрирования, капитальные затраты и нарушение целостности существующей вычислительной среды.
Насколько эффективна дедупликация применительно к большим базам данных?
При определении уровней производительности настройте дедупликацию на сопоставление данных длиной менее 8 Кб. Большие СУБД, от которых зависит работа предприятий, такие как Oracle, SAP, SQL Server и DB2, обычно вносят изменения в данные сегментами по 8 Кб и менее. Однако многие системы дедупликации, сравнивая данные длиной менее 16 Кб, резко замедляют процесс резервного копирования.
Насколько эффективна дедупликация в прогрессивных системах добавочного резервного копирования?
Некоторое ПО дедупликации неэффективно в случае прогрессивного добавочного резервного копирования, осуществляемого с помощью пакета Tivoli Storage Manager (TSM), и при работе с приложениями, фрагментирующими данные, такими как NetWorker и HP Data Protector. Узнайте у производителя, способна ли его технология дедупликации использовать метаданные таких приложений резервного копирования для определения зон, скорее всего содержащих дубликаты данных, и производить побайтовое сравнение для оптимального сокращения объема данных при сохранении высокой производительности.
Какого сокращения объема данных можно ожидать?
Вместо того, чтобы стремиться к более высокому показателю дедупликации вообще, используйте стратегию, более эффективную для крупных предприятий. Выбирайте решение, которое гарантированно сохранит данные за отведенное на резервное копирование время и при этом произведет эффективную дедупликацию. Для корпоративной среды важнейшее значение имеют параллельная обработка, детерминированный показатель перемещения данных в архив, дедупликация и репликация данных.
Могут ли администраторы вести мониторинг резервного копирования, дедупликации, репликации и восстановления данных в масштабе предприятия?
Целостный подход к защите данных позволяет администраторам резервного копирования управлять возросшим объемом данных в расчете на одного человека, настраивать резервное копирование на оптимальную полезность и эффективность, точно планировать на будущее требования к производительности и объему хранения в масштабе предприятия.
Поможет ли дедупликация снизить требования к полосе пропускания при резервном копировании больших объемов данных на предприятии?
Некоторые технологии дедупликации позволяют компаниям реплицировать данные через Интернет более эффективно за счет репликации только изменений на уровне байтов, что снижает требования к полосе пропускания и затраты времени на сохранение данных.
Сможет ли ИТ-персонал настроить дедупликацию под свои нужды?
В корпоративных средах защиты данных могут встречаться такие типы данных, которые предъявляют особые требования к дедупликации. Ищите такие решения, которые позволяют ИТ-специалистам определять наборы данных для дедупликации на основе политики резервного копирования и задания типа данных и автоматически определяют тип данных, подлежащих резервному копированию. Отдайте предпочтение технологии, предоставляющей ИТ-персоналу возможность выбирать для каждого типа данных наиболее эффективный метод дедупликации.
Каков опыт работы производителя с крупными корпоративными средами резервного копирования?
Для корпоративного ЦОДа с его огромным массивом данных и сложными политиками подходит такой производитель, который имеет опыт работы с приложениями для резервного копирования корпоративного класса наподобие NetBackup, NetBackup OST и TSM. Он должен быть готов произвести оценку потребностей в резервном копировании и предоставить рекомендации по оптимизации общей структуры резервного копирования для достижения максимальной производительности резервного копирования, репликации и дедупликации данных в вашей среде.