SDP Greenplum

Продукт
Название базовой системы (платформы): VMware Tanzu Greenplum
Разработчики: Сбербанк
Отрасли: Финансовые услуги, инвестиции и аудит
Технологии: СУБД

2022: Сбер строит «уникальную в мировом масштабе» big-data-инфраструктуру на СУБД Greenplum

Сбер создаёт команду для разработки продукта, построенного на базе СУБД Greenplum. Перед разработчиками стоят амбициозные цели – «построить уникальную в мировом масштабе инфраструктуру по хранению и обработке данных» на базе этой СУБД, заявлено в описании вакансий под этот проект на рекрутирговом портале HH[1].

Команда решает задачи интеграции СУБД Greenplum с сервисами корпоративной аналитической платформы Сбера, построения инфраструктуры хранения для самого большого в России хранилища данных с использованием технологии Greenplum. Помимо этого, перед командой стоит «амбициозная задача по разработке собственной сборки СУБД с использованием Open Source решений», сказано в том же источнике.

«
Наша команда ведёт разработки собственных сборок СУБД с использованием различных Open Source решений, в том числе Greenplum. Отличительная особенность нашей сборки SDP Greenplum - это возможность обработки огромных массивов данных объёмом более 1 ПБ одновременно большим количеством пользователей, - заявили TAdviser в Сбере.
»

В Сбере ведутся разработки собственных сборок СУБД с использованием различных Open Source решений (фото - Виталий Белоусов/РИА «Новости»)

СУБД Greenplum – это быстро развивающийся продукт в классе MPP (массово параллельных систем) с открытым исходным кодом. В основе архитектуры Greenplum лежит ядро PostgreSQL, но ключевая задача Greenplum – это работа с аналитической нагрузкой, в то время как PostgreSQL – это вертикально масштабируемая СУБД, «заточенная» преимущественно под онлайн-транзакции.

Направлением Greenplum в Сбере занимается команда Дмитрия Доброва, главного эксперта по технологиям департамента управления данными (SberData). В SberData создают централизованное хранилище данных всего Сбера: это более 350 источников данных и 100+ ПБ информации.

Добров ранее в этом году рассказывал на вебинаре[2], что в области хранения данных, в частности, в Сбере используются три основных технологии – Hadoop, PostgreSQL и Greenplum. В банке разрабатываются собственные сборки на базе каждой из них. На базе собственного форка PostgreSQL в Сбере уже построено много решений. Есть также SDP Hadoop – собственная сборка фреймворка Hadoop для решения задач обработки, хранения и анализа больших объемов данных.

Как пояснял Добров, SberData на базе открытых исходников создает свой корпоративный продукт Greenplum, добавляя надёжности, делая его более управляемым.

«
Один из минусов Open Source – он обычно хорошо работает в ядровой составляющей, а дальше всё держится на энтузиастах, которые его берут и начинают «прикручивать» какие-то фишки для мониторинга, для надёжного, доступного решения, для бэкапирования. Здесь наша роль. Мы берём Greenplum и начинаем его дорабатывать, строим экосистему вокруг него, - рассказывал главный эксперт по технологиям департамента управления данными Сбера.
»

Это и система управления, и система безопасности – очень важная для Сбера часть, система бэкапирования, disaster recovery.

Также, например, команда SberData работает над многопоточностью, поскольку Greenplum – это кластерное решение. По словам Доброва, за счёт распределённой структуры задачи дата-сайентистов решаются очень быстро, анализ моделей на Greenplum происходит за короткое время за счёт того, что работа с данными происходит фактически там, где они лежат.

Самым интересным в Greenplum Добров называет аналитический AdHoc, позволяющий аналитику, знающему SQL, но не обладающему знанием «фишек» в области матанализа, дата-сайенс и каких-то моделей, быстро получать результаты на больших объёмах структурированных данных. Например, быстро сделать отчёт или какой-то вывод. Таким образом, можно принимать решения на базе простой операции на больших объёмах данных.

Примечания



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  SAP CIS (САП СНГ) (38)
  Softline (Софтлайн) (35)
  РДТЕХ (32)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
  ФОРС - Центр разработки (25)
  Другие (706)

  Сапиенс солюшнс (Sapiens solutions) (7)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (3)
  Navicon (Навикон) (3)
  Wone IT (ранее SoftwareONE Россия, СофтвэрУАН и Awara IT Russia, Авара Ай Ти Солюшенс) (2)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  Другие (35)

  КРИТ (KRIT) (1)
  Корус Консалтинг (1)
  Arenadata (Аренадата Софтвер) (1)
  Монитор Электрик (1)
  Efsol. Системная интеграция. Консалтинг (1)
  Другие (20)

  Arenadata (Аренадата Софтвер) (5)
  Тантор Лабс (Tantor Labs) (3)
  ФОРС - Центр разработки (2)
  К2 Тех (1)
  Крок (1)
  Другие (18)

  AllSee (АЛЛ СИИ) (1)
  GMCS (1)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (1)
  RDV (РДВ Автоматизация) (1)
  БФТ-Холдинг, БФТ (ранее Бюджетные и Финансовые Технологии) (1)
  Другие (4)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle (44, 179)
  SAP SE (6, 175)
  Microsoft (23, 142)
  PostgreSQL Global Development Group (14, 120)
  Постгрес профессиональный (ППГ, Postgres Professional) (6, 39)
  Другие (253, 204)

  SAP SE (3, 11)
  Microsoft (3, 11)
  PostgreSQL Global Development Group (3, 10)
  Oracle (2, 4)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 3)
  Другие (10, 13)

  PostgreSQL Global Development Group (4, 9)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
  VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
  Arenadata (Аренадата Софтвер) (3, 2)
  Microsoft (2, 2)
  Другие (9, 9)

  PostgreSQL Global Development Group (3, 13)
  Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
  Arenadata (Аренадата Софтвер) (3, 5)
  Apache Software Foundation (ASF) (3, 4)
  Тантор Лабс (Tantor Labs) (2, 3)
  Другие (8, 10)

  PostgreSQL Global Development Group (3, 7)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 4)
  Диасофт (Diasoft) (1, 1)
  Другие (0, 0)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle Database - 143 (106, 37)
  Microsoft SQL Server - 135 (104, 31)
  PostgreSQL СУБД - 120 (77, 43)
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 101 (101, 0)
  SAP HANA (High Performance Analytic Appliance) - 75 (71, 4)
  Другие 69

  PostgreSQL СУБД - 10 (7, 3)
  Microsoft SQL Server - 10 (9, 1)
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8 (8, 0)
  Oracle Database - 3 (3, 0)
  SAP HANA (High Performance Analytic Appliance) - 3 (3, 0)
  Другие 6

  PostgreSQL СУБД - 9 (2, 7)
  Oracle Database - 3 (2, 1)
  Tarantool Платформа in‑memory вычислений - 3 (2, 1)
  EMC Greenplum Database Edition - 2 (0, 2)
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 1 (1, 0)
  Другие -5

  PostgreSQL СУБД - 13 (4, 9)
  EMC Greenplum Database Edition - 3 (0, 3)
  Apache Kafka - 2 (2, 0)
  Apache Hadoop - 2 (1, 1)
  ClickHouse - система управления базами данных (СУБД) - 2 (2, 0)
  Другие -9

  PostgreSQL СУБД - 7 (3, 4)
  Diasoft Digital Q.Database - 1 (1, 0)
  Другие -4