2024/03/20 11:09:19

OneData — ETL-инструмент для эффективного управления данными

Согласно исследованию Центра стратегических разработок (ЦСР), российский рынок хранения данных после небольшого спада в 2022 году уже к 2023 году восстановился до уровня 67 млрд рублей, а к 2027 году вырастет до 170 млрд рублей. Особое место на этом рынке занимают системы ETL, обеспечивающие ключевые процессы формирования хранилищ данных (Data Warehouse, DWH): извлечение, преобразование и загрузку (Extract, Transform, Load). В связи с уходом из России ведущих западных вендоров компаниям приходится искать альтернативные инструменты ETL. Какие у них есть варианты и в чем уникальность решения OneData – рассказывает Александр Самойлов, менеджер продукта OneData компании IT_ONE, и Алексей Кулагин, руководитель Data-практики компании IT_ONE.

Содержание

Время собирать данные. Тенденции российского рынка ETL

Не секрет, что объем и сложность данных, которые накапливаются в хранилищах организаций, постоянно растет. Этому способствует как цифровизация бизнес-процессов в целом, так и развитие отдельных технологий – Big Data, ML и других. Несмотря на то, что хранение и обработка больших объемов информации становятся всё затратнее, это приносит компаниям значительные преимущества: аналитика больших данных помогает объективно оценивать бизнес-показатели в реальном времени, принимать на ее основе взвешенные решения и строить прогнозы.

Инструменты ETL играют решающее значение для наполнения хранилищ данных: благодаря их работе обеспечивается постоянное снабжение информационных систем компании актуальными данными из различных источников. Выстраивая процессы ETL, нужно учитывать разнородность этих систем-источников, передаваемые данные и различные механизмы доступа к ним: JDBC, брокеры сообщений вроде Kafka, API, файлы на файловых хранилищах и т.д.

До 2022 года подразделения, ответственные за наполнение корпоративных хранилищ, в зависимости от разных факторов, выбирали для своей работы разные инструменты: готовые или самописные решения. Среди вендорских решений предпочтения отдавались проверенным западным продуктам от лидеров рынка – Informatica PowerCenter, SAS ETL, Oracle Data Integrator. Согласно тому же исследованию ЦСР, в 2021 году зарубежные поставщики занимали 64% рынка в денежном выражении.

Ситуация резко изменилась, когда большинство из этих компаний в связи с геополитической ситуацией и санкциями, введенными против России, приняли решение покинуть локальный рынок. Параллельно с приостановкой бизнеса в стране эти разработчики сворачивают обслуживание своих продуктов у российских клиентов, возможность обновлений и другие сервисные обязательства.

В связи с этим для российских организаций возникает ряд существенных рисков. Отсутствие техподдержки и обновлений грозит привести к сбоям в работе ПО и появлению большого количества уязвимостей. Непрерывность бизнес-процессов, сильно зависящих от интеграции данных и аналитики, также может быть нарушена. Очевидно, что компании заинтересованы в поиске и внедрению альтернативных решений ETL, а это требует значительных инвестиций временных, человеческих и финансовых ресурсов.

Уход западных поставщиков ETL – большой вызов для российских организаций. Вместе с тем он открывает возможности для российских разработчиков и стимулирует инновации в сфере управления данными в России. Важно отметить и активный интерес государства к развитию этого направления ИТ. Например, в дорожной карте «Новое общесистемное программное обеспечение», утвержденной Минцифры в 2022 году, содержатся меры поддержки разработчиков СУБД. Технологии хранения и анализа больших данных включены в концепцию технологического развития России до 2030 года.

Варианты импортозамещения ETL в 2024 году

В качестве альтернативы продуктам западных поставщиков ETL чаще всего упоминают три категории решений: продукты ETL российских разработчиков, open source инструменты ETL (Apache Airflow, Apache NiFi, Talend Open Studio) и облачные сервисы (Яндекс Data Transfer). Помимо коммерческих продуктов и проектов с привлечением интегратора крупными заказчиками рассматриваются варианты разработки собственных решений, в том числе на базе открытого ПО, а также самостоятельной миграции на open source решения.

У каждого из этих сценариев есть преимущества и недостатки. Так, самостоятельная миграция на open source, а тем более разработка и поддержка самописного решения – хорошая возможность внедрить инструмент, максимально соответствующий специфике и потребностям компании. Но решения с открытым исходным кодом часто не предоставляют пользователям всей необходимой функциональности – их кастомизация либо ресурсозатратная, либо вообще невозможна.

В случае самописного инструмента компания действительно может получить не просто работающее кастомизированное ETL решение, но и продукт высокого уровня зрелости с потенциалом его тиражирования на внешнем рынке. Однако такая разработка доступна далеко не всем. Это очень трудоемкий процесс, требующий привлечения большого количества квалифицированных специалистов (собственной или аутсорсинговой команды) и написания кода. Если же речь идет о каком-то нишевом применении, – учитывая адаптацию продукта под требования внутреннего заказчика, он так же имеет ограниченную функциональность, а его стоимость измеряется сотнями миллионов рублей.

Продукты ETL облачных провайдеров позволяют заказчику сэкономить на разработке и поддержке, а также на вычислительных ресурсах. Но они работают только на хранилищах, расположенных внутри тех же облаков – соответственно, возникает большая зависимость от провайдера. Кроме того, для многих компаний применение облачных сервисов противоречит политикам информационной безопасности, причем зачастую речь идет как о зарубежных продуктах (AWS Glue, Azure Data Factory), так и даже о российских публичных облаках.

Исходя из этого большинство российских заказчиков все-таки ориентируются на использование отечественных ETL-продуктов и находятся в поисках оптимального по производительности и функциональности решения. Понимая эту потребность, в 2023 году мы в IT_ONE на основе богатого опыта внедрения хранилищ и озер данных разработали собственный фреймворк перемещения данных OneData, о котором хотелось бы рассказать подробнее.

OneData – ETL-инструмент, упрощающий внедрение DWH

На сегодняшний день OneData действительно является уникальным ETL-инструментом на российском рынке. Это фреймворк, который позволяет пользователям легко и быстро внедрить DWH в ИТ-инфраструктуру своей компании и наполнить его данными из различных источников. Решение состоит из четырех основных структурных компонентов: веб-интерфейса конфигурирования, базы данных конфигураций потоков перемещения данных, сервиса обработки данных и оркестратора потоков. Поясню, почему мы говорим об уникальности этого продукта.

OneData – практически универсальный инструмент, так как обеспечивает подключение DWH к широкому спектру источников данных: это могут быть базы данных, файловые хранилища, брокеры сообщений (в том числе Apache Kafka). В качестве приемников могут выступать файловые хранилища (HDFS, S3, FTP), JDBC, таблица Hive. При сохранении в файловую систему фреймворк поддерживает такие форматы файлов, как orc, parquet, csv, json и deltalake.

OneData – очень быстрый инструмент. Высокую скорость перемещения данных дает фреймворк Spark, который эффективно выполняет параллельные задачи как при получении данных, так и при их записи в приемник. Скорость развертывания обеспечивается за счет оркестратора Airflow. Сокращает время и возможность работы OneData в режиме инкремента – когда каждый раз для пополнения DWH берется не весь входящий набор данных, а только то новое, что появилось с предыдущей загрузки.

OneData позволяет максимально автоматизировать процесс наполнения DWH данными, избавляет компании от необходимости вручную переносить в хранилище данные из различных источников.

OneData – безопасное решение от надежного российского разработчика. Благодаря входящим в его состав механизмам обезличивания и маскирования данных клиенты могут переносить в DWH персональные или другие чувствительные данные с минимальным риском.

Отдельно стоит сказать о преимуществах OneData по сравнению с продуктами open source. Во-первых, многие решения с открытым кодом предполагают написание скриптов, вплоть до полноценного программирования – например, на Python. В OneData весь функционал доступен в виде конфигурационных настроек, описание нового потока данных занимает несколько минут. Как следствие – значительно сокращается time-to-market доступности в DWH новых данных. Во-вторых, для использования OneData не требуются программисты, дата-инженеры и даже специалисты-аналитики: достаточно администратора системы, обладающего инженерной квалификацией в области ИТ.

OneData как компонент комплексной услуги IT_ONE

Уже сегодня продукт OneData способен существенно сократить ресурсозатраты наших клиентов в таких процессах, как наполнение Stage/ODS слоев, подключение новых источников данных к хранилищам и наполнение пользовательских песочниц. У нас большие планы по развитию фреймворка как с точки зрения функциональности, так и с точки зрения юзабилити. В «дорожной карте» по этому продукту – добавление различных алгоритмов маскирования, функции отслеживания изменений структуры источника, поддержка новых типов источников и приемников, обновление пользовательского интерфейса и многое другое.

IT_ONE готова предложить клиентам специальные условия приобретения лицензии на OneData при оказании услуг разработки и внедрения DWH: стоимость лицензии будет снижаться в зависимости от объема проекта.

В момент покупки лицензии заказчик получит стабильно работающее решение, позволяющее оптимизировать трудозатраты на разработку DWH, всю необходимую документацию и стандарты разработки, а также курс обучения своих сотрудников работе с инструментом.