Олег Гиацинтов, DIS Group: Мы видим явный расцвет дата-платформ и Lakehouse-решений
Несмотря на растущую зрелость рынка Data Management, многие проекты управления данными до сих пор заходят в тупик: компании тратят месяцы и даже годы на описание метаданных, но не добиваются ускорения доступа к информации, а внедрение ИИ наталкивается на проблему некачественных данных. В DIS Group считают, что выход — в переходе от набора инструментов к целостной интеллектуальной платформе, где качество данных, data governance и предоставление данных пользователям работают как единый конвейер. О том, как устроена платформа AI Data Platform, какие результаты она уже приносит заказчикам и какие тренды будут определять развитие платформ управления данными в ближайшие годы, рассказывает технический директор DIS Group Олег Гиацинтов.
Гиацинтов
Как и когда родилась идея создать AI Data Platform? В чем ее ключевое отличие от традиционных платформ управления данными?
Олег Гиацинтов: Идея платформы родилась из многолетней практики DIS Group в области работы с данными. Мы видели, что разрозненные инструменты, даже лучшие, по отдельности не дают нужного эффекта, если они плохо связаны между собой. Самые разные компании сталкиваются с одной и той же проблемой: данных много, инструменты вроде бы есть, но путь от запроса до результата слишком длинный и сложный. Именно поэтому появилась идея объединить ключевые компоненты управления данными в единую AI Data Platform (AIDP) — интеллектуальную платформу, которая охватывает весь жизненный цикл данных: от получения и хранения до использования в аналитике, сервисах и ИИ-сценариях.
Ключевое отличие AIDP от традиционных платформ — в глубокой интеграции всех компонентов: от средств интеграции (ETL) и работы с качеством до Data Governance и ИИ. Мы стремимся к тому, чтобы пользователь не задумывался, каким образом данные были найдены, очищены или связаны. Он формулирует запрос, а платформа делает все остальное, выдавая нужные ему данные буквально «как в сказке». В этом смысле искусственный интеллект выступает своего рода катализатором, ускоряющим сложные операции и упрощающим взаимодействие человека и системы.
Кроме того, наша платформа в значительной степени проприетарная: мы минимально опираемся на open source и сознательно выстраиваем контролируемую промышленную архитектуру. Это позволяет гарантировать стабильность, производительность и предсказуемость результата — особенно на больших объемах данных.
Какие архитектурные решения легли в основу AIDP, и как они помогают решать задачи больших данных в реальном времени?
Олег Гиацинтов: В центре архитектуры AIDP находится аналитическая платформа Селена — решение класса Data Lakehouse, которое отвечает за обработку данных для аналитики и отчетности. Вокруг нее выстроены остальные компоненты платформы: ETL, управление качеством данных, управление мастер-данными, Data Governance, репликация данных, средства обезличивания (маскирования) и моделирования.
Наш базовый принцип — своевременное предоставление качественных данных пользователю. Причем своевременность и качество определяет сам пользователь. Кому-то нужен отчет раз в сутки, а кому-то — данные в реальном времени, кому-то важен пятый знак после запятой, а кому-то — показатели с точностью до тысячи, но мгновенно.
Для работы в реальном времени у нас есть мощный механизм репликации данных Датафлот Репликация, который помогает создавать копии различных баз данных, отправляя данные об изменениях в источниках их в другие системы или очереди, разгружая источники и позволяя быстро обрабатывать огромные массивы данных. В реальных проектах наших заказчиков через платформу проходит по несколько сотен терабайт данных в сутки.
Отдельно отмечу важность управления качеством данных и мастер-данными. Качество данных — это не только стандартные проверки на полноту или валидность, но и сложные бизнес-правила, которые отражают реальную логику процессов. А управление мастер-данными позволяет выстроить единые справочники, иерархии и контексты, без которых аналитика и ИИ просто не могут корректно работать.
Какие преимущества дает интеграция lakehouse-хранилища Селена и системы Юниверс Data Governance?
Олег Гиацинтов: Интеграция Селены и Юниверс DG — это ключ к контекстному пониманию запросов, переход от простого хранения и обработки данных к их осмысленному использованию в контексте бизнес-задач конкретного пользователя.
С AIDP можно общаться на естественном языке — задавать вопросы голосом или текстом, используя ИИ-ассистентов вроде GigaChat. Но без Data Governance система не понимает, кто именно задает вопрос и что он имеет в виду. Один и тот же запрос — например, «покажи доходность клиентов» — для сотрудника розничного и корпоративного подразделений банка означает разные выборки, разные справочники, разные правила расчета. Интеграция lakehouse с каталогом данных позволяет учитывать роль пользователя, его положение в оргструктуре, бизнес-контекст и терминологию. Более того, платформа может объяснить и доказать, откуда взялись итоговые данные: показать источники, правила трансформации, формулы.
С чем связаны основные технические сложности при объединении высокопроизводительного lakehouse-слоя с комплексной системой управления данными?
Олег Гиацинтов: Основная сложность — не в логическом объединении систем, а в обеспечении высокой скорости и стабильности их взаимодействия. Исторически каталоги данных и системы Data Governance не проектировались как mission-critical: если каталог «лежит», бизнес обычно не останавливается. В случае с lakehouse это недопустимо. Когда данные используются в реальном времени — например, для генерации персонализированных предложений в банкомате во время снятия наличных или для мониторинга телеметрии цифровых двойников — любая задержка в доступе к метаданным может привести к неверным решениям и финансовым потерям.
В рамках AIDP мы серьезно переработали интерфейсы взаимодействия, внедрили новые API, оптимизировали работу каталога и обеспечили его готовность к высоконагруженным сценариям. Сегодня наша связка lakehouse + Data Governance работает на скоростях, необходимых для аналитики реального времени и ИИ.
Какие подходы к управлению качеством данных и метаданными вы считаете приоритетными в 2026 году? Как AIDP в этом помогает?
Олег Гиацинтов: Здесь все просто. Несмотря на то, что решения класса Data Governance уже довольно распространены, большинство компаний все еще не понимает, зачем они нужны. По нашему опыту, 80% проектов по Data Governance проваливаются, потому что команды начинают со скрупулезного описания имеющихся данных. Через пару лет такие проекты останавливаются, принося лишь убытки, и о них просто забывают. Такой подход — изначально путь в никуда: задачу более скоростного предоставления бизнесу нужных ему данных он решить не может, и доказать это очень легко.
Я считаю, что основной подход — это продолжать евангелизацию идеи правильного управления метаданными, идеи Data Governance. Ключевая проблема в управлении качеством данных заключается в том, что никто толком не знает, что именно нужно проверять: вроде бы и инструменты есть, и стандартов написано много, и метрик полно, но никто не понимает, а чего же хочет пользователь. Бизнес не умеет формулировать технические требования, а служба ИТ — задавать пользователям правильные вопросы. Думаю, в 2026 году решающую роль будут играть подходы, которые выстраивают нормальное взаимодействие между бизнесом и ИТ через Data Governance, роль CDO и понятные процессы постановки требований. AIDP здесь выступает как инструмент реализации этих подходов: платформа помогает формализовать ожидания, связать их с метаданными и автоматически применять в процессах интеграции и контроля качества.
Какую роль играет искусственный интеллект внутри AIDP? Какие задачи он уже решает, а где, по вашему мнению, его потенциал еще не раскрыт?
Олег Гиацинтов: Сегодня ИИ в AIDP решает несколько практических задач. Во-первых, это взаимодействие с платформой на естественном языке — поиск данных, формирование запросов, навигация по каталогу.
Во-вторых, это автоматизация рутинных операций: автоклассификация и автоатрибутирование данных, помощь в определении «золотых» записей справочников, первичное описание терминов и структур. То, что раньше занимало недели ручной работы, теперь делается за часы с учетом последующей валидации человеком.
Мы также движемся в сторону полноценного copilot-подхода: ИИ сопровождает весь процесс обработки запроса на данные — от понимания задачи до подготовки качественного набора данных.
Какие внешние системы и сервисы поддерживает AIDP? Насколько легко подключать сторонние BI, ML и другие инструменты?
Олег Гиацинтов: Для нас внешняя система — это, в первую очередь, источник данных. Мы работаем с самыми разными типами источников: структурированными базами данных, файлами, потоками, видео, аудио, телеметрией. Поддерживаются как пакетные, так и онлайн-сценарии. Естественно, есть редкие типы источников, с которыми мы еще не сталкивались, но за 20 лет работы с промышленными средствами интеграции данных мы научились решать такие вопросы. Связать «ежей с ужами» — для нас вообще не проблема. С большинством стандартных источников интеграция строится на стандартных интерфейсах — здесь рынок давно все определил. Отдельный акцент делаем на работе с метаданными: собственные сканеры позволяют автоматически считывать структуры и lineage из внешних систем и встраивать их в каталог. Что касается ML и MLOps, lakehouse-слой Селены становится источником чистых, проверенных данных для обучения моделей. Это критично для качества ИИ-результатов.
В итоге платформа AIDP органично встраивается в существующую экосистему заказчика — от legacy-систем до датчиков телеметрии.
Можете привести пример внедрения, где платформа дала заметный эффект для бизнеса?
Олег Гиацинтов: Один из показательных кейсов внедрения платформ данных — «Газпром нефть», где был выстроен единый корпоративный конвейер по работе с данными. Он позволил ускорить выдачу данных до 4 часов с момента запроса — причем в масштабах всей компании, а также сократить время вывода решений на рынок более чем на 40%, устранить дублирование загрузки данных и сократить затраты на сопровождение, что повысило эффективность принятия управленческих решений и снизило операционные риски.
Другой интересный пример — работа с цифровыми двойниками в строительстве. Мы собираем телеметрию с техники, анализируем ее в реальном времени и помогаем застройщику повышать эффективность работ.
Также у нас активно идут проекты в банках, госсекторе, ритейле, промышленности — от MDM и Data Governance до построения полноценных lakehouse-платформ.
Какие ключевые тренды развития платформ управления данными вы наблюдаете на рынке? Что будет определять технологии следующего поколения?
Олег Гиацинтов: Мы видим явный расцвет дата-платформ и lakehouse-решений. Производители СУБД, интеграторы, вендоры аналитики — все идут в эту сторону. В ближайшее время рынок, скорее всего, начнет укрупняться: выжить большому количеству мелких игроков в сложной экономической ситуации будет непросто.
lakehouse, на мой взгляд, станет новым стандартом — он постепенно вытеснит классические озера данных за счет эффективности, скорости внедрения и удобства сопровождения. Это откроет доступ к продвинутой аналитике и прогнозированию не только крупным, но и средним компаниям.
Еще один важный тренд — развитие облачных сред и решений,которые работают в режиме разделения для нескольких компаний (multi-tenant). Для среднего бизнеса это зачастую единственный способ начать системно работать с данными без огромных затрат.
Каковы ваши планы по развитию AIDP на ближайшие 1-2 года?
Олег Гиацинтов: Наши планы полностью соответствуют всем перечисленным трендам. Во-первых, мы продолжаем усиливать бесшовные связи между компонентами платформы, делая взаимодействие ещё более быстрым и «невидимым» для пользователя. Во-вторых, активно развиваем облачную версию платформы (она уже адаптирована для использования в публичных облаках), чтобы предлагать ее как сервис PaaS в российских облаках для среднего бизнеса. В-третьих, работаем над созданием экосистемы и маркетплейса на базе платформы, где можно будет тиражировать успешные дата-сервисы. Параллельно усиливаем встроенные возможности ИИ, безопасности и, конечно, продолжаем евангелизацию правильных подходов к управлению данными на рынке. Приходите к нам на Data Summit 2 апреля, узнаете в деталях!








