Распределенное хранилище аналитических данных для работы с OLAP-кубами

Продукт
Название базовой системы (платформы): Apache Kylin
Разработчики: Сбербанк-Технологии (СберТех)
Технологии: BI,  Big Data

«Сбертех», ИТ-«дочка» Сбербанка, занимается развитием нового продукта на базе софта с открытым кодом Apache Kylin – распределенного хранилища аналитических данных для работы с OLAP-кубами, следует из описания ряда вакансий, размещённых в июле 2023 года[1]. Этот продукт призван полностью заменить используемые в данный момент в банке OLAP-решения, с которыми ежедневно работает несколько тысяч пользователей, указано в описании.

Архитектору решения[2] и архитектору OLAP в рамках проекта предстоит решать «нетривиальные и интересные задачи в области DWH, Data engineering, BI и визуализации данных». От них требуется опыт работы с OLAP-хранилищами, такими как MS SQL Server Analysis Services, Hyperion, IBM Cognos, SAP BO и пр.

Apache Kylin – это движок OLAP на платформе больших данных Hadoop, который поддерживает работу с очень большими датасетами. Он предоставляет интерфейсы SQL-запросов и возможности многомерного анализа (OLAP) в Hadoop для поддержки крупномасштабных данных, подходит для аналитических задач, в которых задействованы терабайты и даже петабайты данных, может запрашивать огромные таблицы Hive за доли секунды и поддерживает высокий уровень параллелизма.

Софт Kylin изначально был разработан R&D-подразделением компании eBay и в 2014 году внесён в сообщество открытого исходного кода[3]. Помимо eBay среди пользователей продукта – Yahoo! и Xiaomi.

Сбербанк планирует сам использовать новый продукт и поставлять его на рынок (фото: Сергей Киселев / АГН «Москва»)

Сбербанк несколько лет разрабатывал собственную платформу для работы с большими данными – Sber Data Platform (SDP) и внедрял импортонезависимые решения, основанные на собственных сборках инструментов open source или на уникальных разработках своих специалистов. Собственная платформа работы с данными Сбербанка включает основные инструменты работы с данными: SDP Hadoop и SDP Greenplum – сервисы хранения и обработки больших данных различного типа; SDP Analytics — инструменты визуализации и анализа данных; SDP Data Quality – сервисы контроля качества данных; SDP DataFlow – инструменты интеграции и трансформации данных; DataLabAI — инструменты ML и ИИ и пр.[4].

По состоянию на июнь 2023 года объемы «Фабрики данных» Сбербанка колоссальны — свыше 150 Пбайт.

Стек технологий нового продукта, помимо Apache Kylin, включает: технологии для хранения бизнес данных PostgreSQL, HDFS, Hive и ClickHouse, а для интеграция данных – Hadoop, ClickHouse и Modrian. Международный конгресс по anti-age и эстетической медицине — ENTERESTET 2026

Помимо использования внутри банка, новый продукт будет поставляться также на внешний рынок в экосистеме Platform V – облачной платформы Сбербанка. Линейка продуктов Platform V пополняется новыми решениями ежегодно.

«
Нам предстоит адаптировать «ванильный» Open Source–продукт не только под требования банка но и enterprise-рынка (масштабируемость, аутентификация, аудит, безопасность и пр.), - говорится в описании вакансии архитектора OLAP Сбербанка.
»

В «Сбертехе» заявили TAdviser, что разрабатываемый продукт дополнит их портфолио и обеспечит анализ в режиме реального времени на основе данных из высоконагруженных баз.

Примечания



Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Прогноз (250)
  Loginom Company (Аналитические технологии) (128)
  RBC Group Украина (124)
  БизнесАвтоматика НПЦ (122)
  Консультационная группа АТК (100)
  Другие (2710)

  AW BI (ОСТ) ранее Analytic Workspace (9)
  Manzana Group (М Софт) (7)
  БизнесАвтоматика НПЦ (4)
  OptiTeam Consulting, Оптитим Консалтинг (ранее MCB Consulting, ЭмСиБи Консалтинг) (4)
  Форсайт (4)
  Другие (63)

  Simetra (ранее А+С Транспроект) (13)
  Форсайт (9)
  Arenadata (Аренадата Софтвер) (6)
  Корус Консалтинг (5)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (5)
  Другие (82)

  Arenadata (Аренадата Софтвер) (8)
  БизнесАвтоматика НПЦ (7)
  Инфомаксимум (Infomaximum) (7)
  Simetra (ранее А+С Транспроект) (5)
  Navicon (Навикон) (5)
  Другие (74)

  Норбит (1)
  Триафлай (1)
  Хофф Тех (Hoff Tech - Домашний интерьер) (1)
  Navicon (Навикон) (1)
  OptiTeam Consulting, Оптитим Консалтинг (ранее MCB Consulting, ЭмСиБи Консалтинг) (1)
  Другие (3)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Qlik (QlikTech) (59, 464)
  Форсайт (21, 342)
  SAP SE (71, 306)
  Oracle (65, 267)
  Loginom Company (Аналитические технологии) (4, 240)
  Другие (1185, 1826)

  AW BI (ОСТ) ранее Analytic Workspace (2, 9)
  Optimacros (Оптимакрос) (1, 9)
  Форсайт (2, 8)
  Manzana Group (М Софт) (2, 7)
  PIX Robotics (Пикс Роботикс) (1, 5)
  Другие (40, 58)

  Simetra (ранее А+С Транспроект) (1, 13)
  Optimacros (Оптимакрос) (1, 11)
  Форсайт (2, 9)
  VMware (2, 9)
  Arenadata (Аренадата Софтвер) (2, 8)
  Другие (45, 76)

  Optimacros (Оптимакрос) (1, 11)
  Arenadata (Аренадата Софтвер) (3, 10)
  БизнесАвтоматика НПЦ (1, 7)
  Инфомаксимум (Infomaximum) (1, 7)
  Simetra (ранее А+С Транспроект) (1, 5)
  Другие (40, 64)

  Optimacros (Оптимакрос) (1, 2)
  Hybris (1, 1)
  Simetra (ранее А+С Транспроект) (1, 1)
  Arenadata (Аренадата Софтвер) (1, 1)
  Navicon (Навикон) (1, 1)
  Другие (2, 2)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2023 год
2024 год
2025 год
Текущий год

  QlikView - 411 (370, 41)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 343 (323, 20)
  Deductor - 226 (226, 0)
  IBM Cognos - 162 (58, 104)
  Visary BI Платформа бизнес-аналитики - 122 (122, 0)
  Другие 1430

  AW BI: BI-платформа - 9 (7, 2)
  Optimacros Платформа для оптимизационного и консолидационного планирования - 9 (9, 0)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 8 (7, 1)
  Manzana Customer Data Platform (CDP) - 7 (7, 0)
  PIX BI - 5 (5, 0)
  Другие 41

  TransInfo - 13 (0, 13)
  Optimacros Платформа для оптимизационного и консолидационного планирования - 11 (11, 0)
  VMware Tanzu Greenplum - 9 (1, 8)
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 9 (4, 5)
  Инфомаксимум: Proceset (Система класса Process mining) - 7 (7, 0)
  Другие 29

  Optimacros Платформа для оптимизационного и консолидационного планирования - 11 (11, 0)
  VMware Tanzu Greenplum - 9 (0, 9)
  Visary BI Платформа бизнес-аналитики - 7 (7, 0)
  Инфомаксимум: Proceset (Система класса Process mining) - 7 (7, 0)
  TransInfo - 5 (0, 5)
  Другие 50

  Optimacros Платформа для оптимизационного и консолидационного планирования - 2 (2, 0)
  TransInfo - 1 (0, 1)
  SAP Marketing Cloud (ранее SAP Hybris Marketing Cloud) - 1 (1, 0)
  Navicon Дельта BI - 1 (1, 0)
  Триафлай BI-платформа - 1 (1, 0)
  Другие -1

Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (123)
  Большая Тройка (46)
  Сбербанк (16)
  Умная Логистика (14)
  Доверенная среда (13)
  Другие (610)

  БизнесАвтоматика НПЦ (4)
  РИР (Росатом Инфраструктурные решения) (3)
  Яндекс.Облако (Yandex Cloud) (2)
  CM.Expert (АвтоЭксперт) (2)
  Сбер Бизнес Софт (2)
  Другие (60)

  БизнесАвтоматика НПЦ (6)
  Сбер Бизнес Софт (3)
  Сбербанк (2)
  Синимекс (Cinimex) (2)
  Retail Rocket (Ритейл Рокет) (2)
  Другие (75)

  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (6)
  Цифровые технологии и платформы (ЦТиП) (3)
  Ростелеком (3)
  Сбербанк (2)
  Другие (94)

  Ростелеком Центр (ЦентрТелеком) Макрорегиональный филиал (1)
  Т1 (1)
  Триафлай (1)
  Другие (4)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (3, 122)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 14)
  Цифра (2, 12)
  Другие (321, 168)

  РИР (Росатом Инфраструктурные решения) (3, 4)
  БизнесАвтоматика НПЦ (1, 4)
  Сбербанк (2, 2)
  CM.Expert (АвтоЭксперт) (1, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Другие (17, 18)

  БизнесАвтоматика НПЦ (1, 5)
  Сбербанк (3, 3)
  DataCatalog (ДатаКаталог) (1, 3)
  Luxms (1, 3)
  Ростелеком (1, 2)
  Другие (19, 22)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (2, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Luxms (1, 2)
  Data Sapience (Дата Сапиенс) (1, 2)
  Другие (11, 12)

  Триафлай (1, 1)
  Другие (0, 0)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 122 (122, 0)
  Большая Тройка: АИС Редактор территориальных схем - 39 (39, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 36 (0, 36)
  Триафлай BI-платформа - 14 (14, 0)
  ZIIoT Платформа для работы с промышленными данными - 12 (12, 0)
  Другие 93

  Росатом Цифровое ресурсоснабжение - 4 (1, 3)
  Visary BI Платформа бизнес-аналитики - 4 (4, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 4 (0, 4)
  ZIIoT Платформа для работы с промышленными данными - 2 (2, 0)
  Arenadata Catalog - 2 (2, 0)
  Другие 4

  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 7 (0, 7)
  Visary BI Платформа бизнес-аналитики - 5 (5, 0)
  Arenadata Catalog - 3 (3, 0)
  Luxms BI - 3 (3, 0)
  ZIIoT Платформа для работы с промышленными данными - 2 (2, 0)
  Другие 3

  Visary BI Платформа бизнес-аналитики - 7 (7, 0)
  Искусственный интеллект (ИИ, Artificial intelligence, AI) - 5 (0, 5)
  ZIIoT Платформа для работы с промышленными данными - 2 (2, 0)
  Luxms BI - 2 (2, 0)
  Data Ocean Nova Платформа данных - 2 (2, 0)
  Другие 2

  Триафлай BI-платформа - 1 (1, 0)
  Другие 0