Название базовой системы (платформы): | Apache Kylin |
Разработчики: | Сбербанк-Технологии (СберТех) |
Технологии: | BI, Big Data |
«Сбертех», ИТ-«дочка» Сбербанка, занимается развитием нового продукта на базе софта с открытым кодом Apache Kylin – распределенного хранилища аналитических данных для работы с OLAP-кубами, следует из описания ряда вакансий, размещённых в июле 2023 года[1]. Этот продукт призван полностью заменить используемые в данный момент в банке OLAP-решения, с которыми ежедневно работает несколько тысяч пользователей, указано в описании.
Архитектору решения[2] и архитектору OLAP в рамках проекта предстоит решать «нетривиальные и интересные задачи в области DWH, Data engineering, BI и визуализации данных». От них требуется опыт работы с OLAP-хранилищами, такими как MS SQL Server Analysis Services, Hyperion, IBM Cognos, SAP BO и пр.
Apache Kylin – это движок OLAP на платформе больших данных Hadoop, который поддерживает работу с очень большими датасетами. Он предоставляет интерфейсы SQL-запросов и возможности многомерного анализа (OLAP) в Hadoop для поддержки крупномасштабных данных, подходит для аналитических задач, в которых задействованы терабайты и даже петабайты данных, может запрашивать огромные таблицы Hive за доли секунды и поддерживает высокий уровень параллелизма.
Софт Kylin изначально был разработан R&D-подразделением компании eBay и в 2014 году внесён в сообщество открытого исходного кода[3]. Помимо eBay среди пользователей продукта – Yahoo! и Xiaomi.
Сбербанк несколько лет разрабатывал собственную платформу для работы с большими данными – Sber Data Platform (SDP) и внедрял импортонезависимые решения, основанные на собственных сборках инструментов open source или на уникальных разработках своих специалистов. Собственная платформа работы с данными Сбербанка включает основные инструменты работы с данными: SDP Hadoop и SDP Greenplum – сервисы хранения и обработки больших данных различного типа; SDP Analytics — инструменты визуализации и анализа данных; SDP Data Quality – сервисы контроля качества данных; SDP DataFlow – инструменты интеграции и трансформации данных; DataLabAI — инструменты ML и ИИ и пр.[4].
По состоянию на июнь 2023 года объемы «Фабрики данных» Сбербанка колоссальны — свыше 150 Пбайт.
Стек технологий нового продукта, помимо Apache Kylin, включает: технологии для хранения бизнес данных PostgreSQL, HDFS, Hive и ClickHouse, а для интеграция данных – Hadoop, ClickHouse и Modrian.
Помимо использования внутри банка, новый продукт будет поставляться также на внешний рынок в экосистеме Platform V – облачной платформы Сбербанка. Линейка продуктов Platform V пополняется новыми решениями ежегодно.
Нам предстоит адаптировать «ванильный» Open Source–продукт не только под требования банка но и enterprise-рынка (масштабируемость, аутентификация, аудит, безопасность и пр.), - говорится в описании вакансии архитектора OLAP Сбербанка. |
В «Сбертехе» заявили TAdviser, что разрабатываемый продукт дополнит их портфолио и обеспечит анализ в режиме реального времени на основе данных из высоконагруженных баз.
Примечания
Подрядчики-лидеры по количеству проектов
Прогноз (250)
Loginom Company (ранее BaseGroup Labs Аналитические технологии) (125)
RBC Group Украина (124)
БизнесАвтоматика НПЦ (119)
Консультационная группа АТК (100)
Другие (2538)
Сапиенс солюшнс (Sapiens solutions) (9)
Форсайт (8)
Navicon (Навикон) (7)
Корус Консалтинг (6)
Доверенная среда (5)
Другие (101)
БизнесАвтоматика НПЦ (12)
Форсайт (8)
ФТО (5)
Manzana Group (М Софт) (4)
Optimacros (Оптимакрос) (3)
Другие (74)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Qlik (QlikTech) (59, 464)
Форсайт (19, 340)
SAP SE (70, 303)
Oracle (65, 267)
Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 236)
Другие (1116, 1648)
SAP SE (6, 13)
Qlik (QlikTech) (2, 8)
Форсайт (2, 8)
Microsoft (2, 6)
Триафлай (1, 5)
Другие (50, 78)
БизнесАвтоматика НПЦ (1, 12)
Форсайт (3, 8)
Optimacros (Оптимакрос) (1, 6)
Microsoft (1, 5)
Manzana Group (М Софт) (3, 4)
Другие (40, 50)
Optimacros (Оптимакрос) (1, 10)
Форсайт (2, 8)
Analytic Workspace (ОСТ) (2, 5)
Manzana Group (М Софт) (2, 5)
PIX Robotics (Пикс Роботикс) (1, 5)
Другие (38, 59)
Simetra (ранее А+С Транспроект) (1, 12)
Форсайт (2, 9)
VMware (2, 7)
БизнесАвтоматика НПЦ (1, 7)
Инфомаксимум (Infomaximum) (1, 7)
Другие (38, 61)
Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)
QlikView - 411 (370, 41)
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 341 (321, 20)
Deductor - 226 (226, 0)
IBM Cognos - 162 (58, 104)
Visary BI Платформа бизнес-аналитики - 119 (119, 0)
Другие 1283
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 8 (7, 1)
SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8 (8, 0)
QlikView.Next - 6 (0, 6)
Триафлай BI-платформа - 5 (5, 0)
Microsoft Power BI - 5 (5, 0)
Другие 64
Visary BI Платформа бизнес-аналитики - 12 (12, 0)
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 8 (5, 3)
Optimacros Платформа для оптимизационного и консолидационного планирования - 6 (6, 0)
Microsoft Power BI - 5 (5, 0)
QlikView.Next - 4 (0, 4)
Другие 35
Optimacros Платформа для оптимизационного и консолидационного планирования - 10 (10, 0)
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 8 (7, 1)
Analytic Workspace BI-платформа - 5 (3, 2)
PIX BI - 5 (5, 0)
Manzana Customer Data Platform (CDP) - 5 (5, 0)
Другие 38
TransInfo - 12 (0, 12)
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 9 (4, 5)
Visary BI Платформа бизнес-аналитики - 7 (7, 0)
VMware Tanzu Greenplum - 7 (1, 6)
Инфомаксимум: Proceset (Система класса Process mining) - 7 (7, 0)
Другие 17
Подрядчики-лидеры по количеству проектов
БизнесАвтоматика НПЦ (120)
Большая Тройка (46)
Сбербанк (14)
Умная Логистика (14)
Доверенная среда (13)
Другие (482)
Доверенная среда (5)
Большая Тройка (4)
Цифра (4)
БизнесАвтоматика НПЦ (3)
Ростелеком (3)
Другие (54)
БизнесАвтоматика НПЦ (12)
OneFactor (Уанфактор) ЕдиныйФактор (3)
РИР (Росатом Инфраструктурные решения) (3)
Яндекс (Yandex) (2)
Мегапьютер Интелидженс (Megaputer Intelligence) (2)
Другие (44)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
БизнесАвтоматика НПЦ (2, 119)
Большая Тройка (2, 46)
Умная Логистика (2, 14)
Триафлай (1, 13)
Сбербанк (10, 10)
Другие (255, 138)
Триафлай (1, 5)
Большая Тройка (2, 4)
Цифра (1, 4)
БизнесАвтоматика НПЦ (1, 3)
Умная Логистика (2, 2)
Другие (6, 8)
БизнесАвтоматика НПЦ (1, 12)
РИР (Росатом Инфраструктурные решения) (2, 3)
Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
МегаФон (2, 1)
Ростелеком (1, 1)
Другие (7, 7)
БизнесАвтоматика НПЦ (1, 5)
РИР (Росатом Инфраструктурные решения) (3, 4)
Сбербанк (2, 2)
DataCatalog (ДатаКаталог) (1, 2)
CM.Expert (АвтоЭксперт) (1, 2)
Другие (17, 18)
БизнесАвтоматика НПЦ (1, 7)
Сбербанк (3, 3)
TData (ТДата) (1, 2)
DataCatalog (ДатаКаталог) (1, 2)
Luxms (1, 2)
Другие (18, 21)
Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)
Visary BI Платформа бизнес-аналитики - 119 (119, 0)
Большая Тройка: АИС Редактор территориальных схем - 39 (39, 0)
Искусственный интеллект (ИИ, Artificial intelligence, AI) - 26 (0, 26)
Триафлай BI-платформа - 13 (13, 0)
ZIIoT Платформа для работы с промышленными данными - 10 (10, 0)
Другие 85
Триафлай BI-платформа - 5 (5, 0)
ZIIoT Платформа для работы с промышленными данными - 4 (4, 0)
Visary BI Платформа бизнес-аналитики - 3 (3, 0)
Цифровая Траектория: Action Track (ATC) - 2 (2, 0)
Искусственный интеллект (ИИ, Artificial intelligence, AI) - 2 (0, 2)
Другие 7
Visary BI Платформа бизнес-аналитики - 12 (12, 0)
Росатом Цифровое ресурсоснабжение - 3 (1, 2)
PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2 (2, 0)
N3.Аналитика - 1 (1, 0)
RT.Datalake Решение для хранения и обработки данных любых объемов - 1 (1, 0)
Другие 2
Visary BI Платформа бизнес-аналитики - 5 (5, 0)
Росатом Цифровое ресурсоснабжение - 4 (1, 3)
Искусственный интеллект (ИИ, Artificial intelligence, AI) - 3 (0, 3)
CM.Expert Data Mining платформа - 2 (2, 0)
ZIIoT Платформа для работы с промышленными данными - 2 (2, 0)
Другие 6
Visary BI Платформа бизнес-аналитики - 7 (7, 0)
Искусственный интеллект (ИИ, Artificial intelligence, AI) - 6 (0, 6)
RT.Datalake Решение для хранения и обработки данных любых объемов - 2 (2, 0)
Luxms BI - 2 (2, 0)
ZIIoT Платформа для работы с промышленными данными - 2 (2, 0)
Другие 4