Проект

МКБ внедрил каталог данных

Заказчики: Московский кредитный банк (МКБ)

Москва; Финансовые услуги, инвестиции и аудит

Продукт: OpenMetadata
Второй продукт: Kubernetes
Третий продукт: PostgreSQL СУБД

Дата проекта: 2023/04 — 2023/09
Технология: Data Quality - Качество данных
подрядчики - 195
проекты - 1053
системы - 60
вендоры - 42
Технология: MDM - Master Data Management - Управление основными мастер-данными
подрядчики - 133
проекты - 728
системы - 296
вендоры - 201
Технология: Средства разработки приложений
подрядчики - 195
проекты - 430
системы - 676
вендоры - 343
Технология: СУБД
подрядчики - 272
проекты - 773
системы - 308
вендоры - 148

2023: Внедрение каталога данных OpenMetadata

МКБ (Московский кредитный банк) внедрил каталог данных c открытым исходным кодом OpenMetadata. Его задача — упорядочить работу с данными, сделать ее более оперативной, а сами данные — более качественными, сообщили представители МКБ 16 ноября 2023 года. Внедрение решения, по оценкам специалистов банка, экономит порядка трети рабочего времени аналитиков.

Для банка данные самого разного характера — это основа для принятия решений, в том числе управленческих, создания рекомендательных систем, и, конечно, скоринга. И если эти данные недостаточно качественны (основные критерии здесь — правильность, актуальность и полнота), то решения могут быть неверными, а также запоздалыми — если на поиск нужных данных уходит слишком много времени (до 80% рабочего времени аналитиков). Эти две проблемы становятся все более и более серьезными по мере того, как бизнес развивается: объем данных растет, в связи с чем найти нужную информацию становится непростой задачей.

Кроме того, добавляется и тот факт, что информация о данных — метаданные — хранилась в банке разрозненно: в Confluence, Jira и других электронных таблицах. А находить оперативно нужные сведения могут аналитики, работающие с теми или иными данными. Поэтому уход такого ИТ-специалиста может привести к частичной потере экспертизы в определенном сегменте данных.

Чем поможет каталог?

По задумке МКБ, внедрение каталога данных поможет повысить уровень доверия к ним, упростит процесс поиска нужных данных, а также избавит от так называемых бесхозных данных, за качество и состояние которых никто не несет ответственность.

Еще один важный фактор — безопасность данных. Стопроцентной гарантии от утечек и утери данных не бывает, но необходимо минимизировать риски, для чего данные необходимо ранжировать по критичности, знать, где и как они хранятся и какими средствами обеспечивается их безопасность, какие сотрудники имеют к ним доступ, с каким уровнем привилегированности и так далее. Также в случае наступления нежелательного инцидента при наличии каталога будет понятно, какие блоки данных оказались скомпрометированы, что облегчит ликвидацию последствий.

Как выбирали решение

В текущих условиях, когда решения от крупных зарубежных производителей программного обеспечения (ПО) недоступны, создать каталог данных в банке можно двумя путями — либо разработать самостоятельно, либо воспользоваться готовым open source-решением. Самостоятельная разработка — очень затратный процесс с точки зрения времени и финансов. В случае с уже готовым open source-решением, со сложностями сопряжен сам процесс внедрения, интеграции с уже работающими информационными системами банка, ведь документация часто недостаточно подробна, а опытных внедренцев с нужной экспертизой на рынке может просто не быть.

В результате была выбрана открытая система каталогизации данных OpenMetadata. Любой каталог данных должен уметь подключаться к системам источников и считывать их метаинформацию. Это данные о данных — таблицы, структура таблиц, где эти таблицы лежать, название базы, название схемы, название таблицы. В идеальном состоянии — еще и комментарии. OpenMetadata это как раз делает умеет.

Система может получать метаданные не только из баз данных, но также из систем для работы с потоковыми данными Apache Kafka, Apache Airflow, BI-систем.

Внедрение и сложности

Процесс внедрения системы занял два месяца и состоял из тестового и полномасштабного «боевого» внедрений. Изначально по соображениям безопасности было принято решение развернуть OpenMetadata не «тестовом полигоне», в контуре разработки. В качестве платформы для работы каталога OpenMetadata использовали Kubernetes, в качестве СУБД для хранения метаданных — PostgreSQL. В этом состояла особенность данного кейса внедрения такой системы — базовая документация каталога составлена для работы с MySQL. Кроме самой OpenMetadata, для нормальной работы каталога в МКБ также развернули такие системы, как Apache Airflow (для считывания метаданных из источников) и поисковая система Elasticsearch.

Основная сложность — это внедрение каталога данных в процессы банка, так как требуется перестройка процессов работы с данными и разработки. В работе используются разнородные системы. Например, разработка технического задания ведется в Сonfluence, но после его реализации аналитиком построенная таблица описывается также и в каталоге данных.

Каждому аналитику данных необходимо выделить время на поиск, разметку и описание своих данных в каталоге. Привить культуру управления данными и сформировать необходимые привычки — ключевая задача.

Результаты и эффективность

Каталог уже развернут и полноценно эксплуатируется в МКБ. К нему подключены 8 основных информационных систем банка: корпоративное хранилище данных, система ЦФТ-Банк, CRM и др. Процесс описания и разметки данных (наполнение каталога данных информацией) продолжается.

По отзыву МКБ, по сравнению с прежним форматом организации работы с данными, каталог уже успел продемонстрировать свои преимущества: экономия рабочего времени аналитиков уже составляет 32% (исследовалась работа по тем блокам данных, которые уже описаны в каталоге).

Что дальше

«
У МКБ на каталог данных большие планы. Планируется интеграция каталога данных с инструментом по контролю качества данных (DQ). И конечно, продолжает оставаться актуальной тема внедрения культуры управления данными и формирование необходимых привычек работы с ними у специалистов банка, — поделились представители МКБ.
»