IT One: OneData ETL-продукт по перемещению и интеграции данных в хранилищах

Продукт
Разработчики: Ит1-Холдинг (IT-One)
Дата премьеры системы: 2023/12/05
Технологии: MDM - Master Data Management - Управление основными мастер-данными

Основная статья: Управление данными (Data management)

2024: OneData – ETL-инструмент для эффективного управления данными

Согласно исследованию Центра стратегических разработок (ЦСР), российский рынок хранения данных после небольшого спада в 2022 году уже к 2023 году восстановился до уровня 67 млрд рублей, а к 2027 году вырастет до 170 млрд рублей. Особое место на этом рынке занимают системы ETL, обеспечивающие ключевые процессы формирования хранилищ данных (Data Warehouse, DWH): извлечение, преобразование и загрузку (Extract, Transform, Load). В связи с уходом из России ведущих западных вендоров компаниям приходится искать альтернативные инструменты ETL. Какие у них есть варианты и в чем уникальность решения OneData – рассказывает Александр Самойлов, менеджер продукта OneData компании IT_ONE, и Алексей Кулагин, руководитель Data-практики компании IT_ONE. Подробнее здесь.

2023: Разработка ETL-продукта для наполнения хранилищ данных

Компания IT_ONE (ООО «ИТ1-Технологии») разработала ETL-продукт по перемещению и интеграции данных в хранилищах – OneData. Данный фреймворк поддерживает большинство типов источников и приемников данных, высокую скорость развертывания и отличается простотой настройки. Об этом разработчик сообщил 5 декабря 2023 года.

Деятельность коммерческих компаний связана с генерацией огромных массивов данных. Для их размещения и обработки используются озера данных (Data Lake), сложные распределенные хранилища, аналитические системы и другие технологии. При этом важным процессом является регулярная актуализация и пополнение этих данных из внешних систем-источников, разнородных по типу взаимодействия с ними и по типу передаваемых данных.

OneData оптимизирует деятельность ИТ-команд компаний-заказчиков, занимающихся наполнением хранилищ данных. Продукт – альтернатива западным проприетарным продуктам, многие из которых на декабрь 2023 года недоступны в России, а также продуктам на основе открытого ПО, которые могут не подходить заказчику по функциональности.

OneData состоит из четырех основных структурных компонентов: web-интерфейса конфигурирования, базы данных конфигураций потоков перемещения данных, сервиса обработки данных на базе Spark и оркестратора потоков на базе Apache Airflow. Решение поддерживает наиболее популярные в России источники и приемники данных. Например, оно работает с JDBC-источниками и брокером сообщений Apache Kafka, а в качестве приемников могут выступать файловые хранилища (HDFS, S3, FTP), JDBC, таблица Hive.

Работа в OneData происходит следующим образом. Администратор формирует конфигурацию потока перемещения данных, которая сохраняется в БД, и расписание запуска потока. В том же конфигурационном файле можно указать дополнительные настройки: например, количество ресурсов, которое будет запрашивать spark-процесс, преобразования типов полей и т. д. Параллельно происходит формирование DAG-файла и импорт его в Airflow для постановки потока на расписание. По расписанию происходит вызов Spark-процесса, который в соответствии с заданной конфигурацией осуществляет перемещение данных из источника в приемник. Использование Spark обеспечивает высокую скорость перемещения: эффективное распараллеливание, получение и запись данных.

Кроме того, при сохранении в файловую систему фреймворк поддерживает самые разные форматы файлов: orc, parquet, csv, json, deltalake. Чтение из Kafka может сопровождаться валидацией входящих json-сообщений по указанной json-схеме. Сообщения, не прошедшие валидацию фреймворк может бережно сложить в указанный DLQ-топик (Dead Letter Queue topic). Эти опции еще более расширяют функциональность продукта.

К числу плюсов данного решения относится его оперативное развертывание. Основной Spark-процесс можно запустить даже локально, но для использования всех плюсов рекомендуется Hadoop-кластер с YARN или Kubernetes-кластер. Конфигурация процессов перемещения данных может храниться в json-файлах или в любой доступной БД PostgreSQL. Оркестрация потоков осуществляется с помощью Airflow, который можно развернуть рядом или использовать уже имеющийся.

OneData прост в настройке, ее может осуществить даже специалист без навыков программиста или DevOps.

В соответствии с «дорожной картой» развития OneData, компания IT_ONE планирует дополнить продукт такими функциями, как маскирование данных, перенос изменений в метаданных, поддержка новых типов источников и приемников, автоматическая проверка консистентности перемещенных данных. Также готовится ряд технологических доработок, которые должны облегчить эксплуатацию фреймворка: это фиксация метрик работы потоков перемещения данных, интеграция с системами мониторинга и т. д.

«
Имея богатый опыт внедрения хранилищ и озер данных, в сложившейся на рынке ситуации мы почувствовали необходимость разработки собственного фреймворка перемещения данных. OneData способен радикально сокращать время и трудозатраты в таких задачах, как, например, наполнение Stage/ODS слоев, подключение новых источников данных к хранилищам или наполнение пользовательских песочниц. С каждым спринтом OneData становится всё более быстрым, удобным и совершенным, – сказал ведущий менеджер проектов IT_ONE Александр Самойлов.
»



СМ. ТАКЖЕ (1)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (234)
  Axelot (Акселот) (145)
  Цифра (31)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (24)
  АйТи Про (IT Pro) (21)
  Другие (258)

  Datareon (Датареон) (32)
  Axelot (Акселот) (24)
  Commvault (5)
  АйТи Про (IT Pro) (4)
  AnalyticsHub (АналитиксХаб) (2)
  Другие (35)

  Datareon (Датареон) (37)
  Axelot (Акселот) (32)
  Цифра (7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5)
  Софрос (Sofros) (4)
  Другие (21)

  Datareon (Датареон) (22)
  Axelot (Акселот) (15)
  Софрос (Sofros) (9)
  Naumen (Наумен консалтинг) (3)
  Нетрика Медицина (2)
  Другие (26)

  Первый Бит (2)
  Axelot (Акселот) (2)
  Datareon (Датареон) (1)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (1)
  Napoleon IT (Наполеон Айти) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (2, 366)
  Цифра (2, 35)
  Axelot (Акселот) (1, 28)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5, 25)
  Informatica (14, 21)
  Другие (278, 210)

  Datareon (Датареон) (1, 54)
  Commvault (2, 5)
  АйТи Про (IT Pro) (1, 4)
  ЮниДата (UniData) (1, 3)
  Alation (1, 2)
  Другие (25, 25)

  Datareon (Датареон) (1, 67)
  Цифра (1, 7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (3, 5)
  Axelot (Акселот) (1, 5)
  Платформа больших данных (Platforma) (1, 2)
  Другие (14, 15)

  Datareon (Датареон) (1, 42)
  Axelot (Акселот) (1, 5)
  Цифра (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Тандер Сеть магазинов Магнит (2, 2)
  Другие (15, 16)

  Datareon (Датареон) (1, 4)
  Altcraft (Альткрафт) (1, 1)
  Napoleon IT (Наполеон Айти) (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  Технологии Будущего (1, 1)
  Другие (5, 5)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon Platform - 366 (366, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 35 (35, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 28 (28, 0)
  HFLabs Единый клиент - 22 (22, 0)
  АйТи Про: BI.Qube - 18 (18, 0)
  Другие 200

  Datareon Platform - 54 (54, 0)
  АйТи Про: BI.Qube - 4 (4, 0)
  Commvault Complete Data Protection - 4 (4, 0)
  ЮниДата Платформа управления данными - 3 (3, 0)
  Alation Data Catalog - 2 (2, 0)
  Другие 26

  Datareon Platform - 67 (67, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 7 (7, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5 (5, 0)
  Platforma и HFLabs: Технология безопасного метчинга данных - 2 (2, 0)
  HFLabs Единый клиент - 2 (2, 0)
  Другие 15

  Datareon Platform - 42 (42, 0)
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5 (5, 0)
  Naumen Enterprise Search - 3 (3, 0)
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 3 (3, 0)
  N3.Управление НСИ - 2 (2, 0)
  Другие 13

  Datareon Platform - 4 (4, 0)
  Altcraft Platform - 1 (1, 0)
  Наносемантика NLab Marker - 1 (1, 0)
  БИТ.Строительство.MDM (Управление данными) - 1 (1, 0)
  HFLabs Единый клиент - 1 (1, 0)
  Другие 4