Разработчики: | Ит1-Холдинг (IT-One) |
Дата премьеры системы: | 2023/12/05 |
Технологии: | MDM - Master Data Management - Управление основными мастер-данными |
Основная статья: Управление данными (Data management)
2024: OneData – ETL-инструмент для эффективного управления данными
Согласно исследованию Центра стратегических разработок (ЦСР), российский рынок хранения данных после небольшого спада в 2022 году уже к 2023 году восстановился до уровня 67 млрд рублей, а к 2027 году вырастет до 170 млрд рублей. Особое место на этом рынке занимают системы ETL, обеспечивающие ключевые процессы формирования хранилищ данных (Data Warehouse, DWH): извлечение, преобразование и загрузку (Extract, Transform, Load). В связи с уходом из России ведущих западных вендоров компаниям приходится искать альтернативные инструменты ETL. Какие у них есть варианты и в чем уникальность решения OneData – рассказывает Александр Самойлов, менеджер продукта OneData компании IT_ONE, и Алексей Кулагин, руководитель Data-практики компании IT_ONE. Подробнее здесь.
2023: Разработка ETL-продукта для наполнения хранилищ данных
Компания IT_ONE (ООО «ИТ1-Технологии») разработала ETL-продукт по перемещению и интеграции данных в хранилищах – OneData. Данный фреймворк поддерживает большинство типов источников и приемников данных, высокую скорость развертывания и отличается простотой настройки. Об этом разработчик сообщил 5 декабря 2023 года.
Деятельность коммерческих компаний связана с генерацией огромных массивов данных. Для их размещения и обработки используются озера данных (Data Lake), сложные распределенные хранилища, аналитические системы и другие технологии. При этом важным процессом является регулярная актуализация и пополнение этих данных из внешних систем-источников, разнородных по типу взаимодействия с ними и по типу передаваемых данных.
OneData оптимизирует деятельность ИТ-команд компаний-заказчиков, занимающихся наполнением хранилищ данных. Продукт – альтернатива западным проприетарным продуктам, многие из которых на декабрь 2023 года недоступны в России, а также продуктам на основе открытого ПО, которые могут не подходить заказчику по функциональности.
OneData состоит из четырех основных структурных компонентов: web-интерфейса конфигурирования, базы данных конфигураций потоков перемещения данных, сервиса обработки данных на базе Spark и оркестратора потоков на базе Apache Airflow. Решение поддерживает наиболее популярные в России источники и приемники данных. Например, оно работает с JDBC-источниками и брокером сообщений Apache Kafka, а в качестве приемников могут выступать файловые хранилища (HDFS, S3, FTP), JDBC, таблица Hive.
Работа в OneData происходит следующим образом. Администратор формирует конфигурацию потока перемещения данных, которая сохраняется в БД, и расписание запуска потока. В том же конфигурационном файле можно указать дополнительные настройки: например, количество ресурсов, которое будет запрашивать spark-процесс, преобразования типов полей и т. д. Параллельно происходит формирование DAG-файла и импорт его в Airflow для постановки потока на расписание. По расписанию происходит вызов Spark-процесса, который в соответствии с заданной конфигурацией осуществляет перемещение данных из источника в приемник. Использование Spark обеспечивает высокую скорость перемещения: эффективное распараллеливание, получение и запись данных.
Кроме того, при сохранении в файловую систему фреймворк поддерживает самые разные форматы файлов: orc, parquet, csv, json, deltalake. Чтение из Kafka может сопровождаться валидацией входящих json-сообщений по указанной json-схеме. Сообщения, не прошедшие валидацию фреймворк может бережно сложить в указанный DLQ-топик (Dead Letter Queue topic). Эти опции еще более расширяют функциональность продукта.
К числу плюсов данного решения относится его оперативное развертывание. Основной Spark-процесс можно запустить даже локально, но для использования всех плюсов рекомендуется Hadoop-кластер с YARN или Kubernetes-кластер. Конфигурация процессов перемещения данных может храниться в json-файлах или в любой доступной БД PostgreSQL. Оркестрация потоков осуществляется с помощью Airflow, который можно развернуть рядом или использовать уже имеющийся.
OneData прост в настройке, ее может осуществить даже специалист без навыков программиста или DevOps.
В соответствии с «дорожной картой» развития OneData, компания IT_ONE планирует дополнить продукт такими функциями, как маскирование данных, перенос изменений в метаданных, поддержка новых типов источников и приемников, автоматическая проверка консистентности перемещенных данных. Также готовится ряд технологических доработок, которые должны облегчить эксплуатацию фреймворка: это фиксация метрик работы потоков перемещения данных, интеграция с системами мониторинга и т. д.
Имея богатый опыт внедрения хранилищ и озер данных, в сложившейся на рынке ситуации мы почувствовали необходимость разработки собственного фреймворка перемещения данных. OneData способен радикально сокращать время и трудозатраты в таких задачах, как, например, наполнение Stage/ODS слоев, подключение новых источников данных к хранилищам или наполнение пользовательских песочниц. С каждым спринтом OneData становится всё более быстрым, удобным и совершенным, – сказал ведущий менеджер проектов IT_ONE Александр Самойлов. |
Подрядчики-лидеры по количеству проектов
Datareon (Датареон) (272)
Axelot (Акселот) (155)
Цифра (31)
HFLabs (ХФ Лабс), ранее HumanFactorLabs (25)
АйТи Про (IT Pro) (21)
Другие (277)
Datareon (Датареон) (37)
Axelot (Акселот) (25)
Commvault (5)
АйТи Про (IT Pro) (4)
Цифра (2)
Другие (35)
Datareon (Датареон) (41)
Axelot (Акселот) (32)
Цифра (7)
HFLabs (ХФ Лабс), ранее HumanFactorLabs (5)
Софрос (Sofros) (4)
Другие (21)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Datareon (Датареон) (2, 418)
Цифра (2, 36)
Axelot (Акселот) (1, 30)
HFLabs (ХФ Лабс), ранее HumanFactorLabs (5, 26)
Informatica (14, 21)
Другие (303, 227)
Datareon (Датареон) (1, 60)
Commvault (2, 5)
АйТи Про (IT Pro) (1, 4)
ЮниДата (UniData) (1, 3)
SAP SE (1, 2)
Другие (25, 25)
Datareon (Датареон) (1, 71)
Цифра (1, 7)
HFLabs (ХФ Лабс), ранее HumanFactorLabs (3, 5)
Axelot (Акселот) (1, 5)
Платформа больших данных (Platforma) (1, 2)
Другие (15, 16)
Datareon (Датареон) (1, 57)
Axelot (Акселот) (1, 6)
Цифра (1, 4)
Naumen (Наумен консалтинг) (1, 3)
Тандер Сеть магазинов Магнит (2, 2)
Другие (15, 16)
Datareon (Датареон) (1, 30)
Data Sapience (Дата Сапиенс) (2, 3)
Axelot (Акселот) (1, 2)
HFLabs (ХФ Лабс), ранее HumanFactorLabs (1, 2)
Сбербанк (1, 1)
Другие (14, 14)
Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)
Datareon Platform - 418 (418, 0)
Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 36 (36, 0)
1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 30 (30, 0)
HFLabs Единый клиент - 23 (23, 0)
АйТи Про: BI.Qube - 18 (18, 0)
Другие 210
Datareon Platform - 60 (60, 0)
Commvault Complete Data Protection - 4 (4, 0)
АйТи Про: BI.Qube - 4 (4, 0)
ЮниДата Платформа управления данными - 3 (3, 0)
SAP Business Technology Platform (SAP BTP) - 2 (2, 0)
Другие 26
Datareon Platform - 71 (71, 0)
Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 7 (7, 0)
1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5 (5, 0)
HFLabs Единый клиент - 2 (2, 0)
HFLabs Центр управления согласиями (ЦУС) - 2 (2, 0)
Другие 15
Datareon Platform - 57 (57, 0)
1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 6 (6, 0)
Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 4 (4, 0)
Naumen Enterprise Search - 3 (3, 0)
N3.Управление НСИ - 2 (2, 0)
Другие 12
Datareon Platform - 30 (30, 0)
Data Sapience: Data Ocean Платформа управления данными - 2 (2, 0)
1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 2 (2, 0)
HFLabs Единый клиент - 2 (2, 0)
SberData Platform (Платформа данных Сбера) - 1 (1, 0)
Другие 12