2020/03/16 10:11:41

Большие данные (Big Data) в Сбербанке

Статья посвящена вопросам развития направления анализа больших данных в Сбербанке.

Содержание

Активы Сбербанка

Компании в России

За рубежом

Информационные технологии



2020: Большие данные превращаются в огромные. Сбербанк наращивает армию data scientists

4 марта, выступая на конференции TAdviser Big Data и BI Day 2020, старший управляющий директор департамента управления данными Сбербанка (SberData) Борис Рабинович рассказал, как устроена и развивается одна из крупнейших в России платформ данных, которую используют в банке. Он отметил, что в Сбербанке возникает все больше задач, требующих обработки данных в реальном времени, и для этого используются алгоритмы искусственного интеллекта.

Борис Рабинович на конференции TAdviser Big Data и BI Day 2020

В банке также создается все больше специализированных инструментов для разработчиков – data-инженеров, data scientists. Количество data scientists очень большое, но банку нужно их все больше и больше, говорит Рабинович.

По его информации, в Сбербанке по состоянию на 4 марта накоплено более 120 ПБ данных. В спокойные периоды банк осуществляет порядка 12 тыс. транзакций в секунду, а неспокойные – до 20 тыс. транзакций, и информация о них загружается в «Фабрику данных», которая, в свою очередь, является частью цифровой платформы Сбербанка.

Слайд из презентации Бориса Рабиновича

В Сбербанке более 200 команд, которые на базе «Фабрики данных» разрабатывают свои продукты и решения. Задач, в решении которых задействована «Фабрика данных», - множество. Борис Рабинович привел несколько примеров: управленческая отчетность в режиме реального времени, регуляторная и налоговая отчетность, транзакционный скоринг AI в потребительском кредитовании и др.

«
Чтобы работать со 120 петабайтами данных, мы создали платформу, и она растет с такой скоростью, что это уже не Big Data, а Huge Data (огромные данные – прим. TAdviser). Мы будем популяризировать этот термин, - рассказал старший управляющий директор департамента управления данными Сбербанка.
»

Слайд из презентации Бориса Рабиновича

С точки зрения технологий раньше в «Фабрике данных» был «крен в сторону Hadoop», говорит Борис Рабинович. Но после 2018 года в компании осознали, что этот подход был не совсем правильный. Теперь в зависимости от решаемых задач пользователям фабрики предлагаются разные технологии, включая Oracle и Teradata, с которых изначально осуществлялся переход на Hadoop.

«
Мы инвестируем и в open source, и в вендорские продукты, чтобы у нас был запас прочности, - отметил в ходе выступления Борис Рабинович.
»

Слайд из презентации Бориса Рабиновича

В общей сложности банк использует порядка 100 источников загрузки данных – внутренних и внешних. Технология по работе с данными (Near Real Time, NRT) полгода назад позволяла обрабатывать до 50 тыс. сообщений в секунду. Но сейчас в банке тренд на то, чтобы подключить как можно больше источников, в том числе за счет компаний экосистемы Сбербанка, в NRT, и этот показатель уже достигает 300 тыс. сообщений, а на пиках – до 1 млн. сообщений, привел данные Рабинович. До конца года, рассчитывают в банке, у него будет около 160 источников.

Представитель банка остановился на существующем также «супермаркете данных», где инженеры и аналитики Сбербанка могут изучить и заказать данные. Поставка осуществляется автоматически по заданному расписанию.

Слайд из презентации Бориса Рабиновича

Планы Сбербанка включают вывод компонент «Фабрики данных» в собственную облачную платформу банка – SberCloud, и предложение инструментов фабрики, в том числе, внешнему рынку. Часть из них уже выведена в облако, говорит Борис Рабинович.

2017

Big Data позволяет банку снижать ставки по кредитам

В годовом отчете Сбербанка за 2016 год, выпущенном в апреле, говорится, что анализ больших данных по активности клиентов позволил банку снизить уровень неработающих кредитов и сократить риски. Это, в свою очередь, «привело к снижению процентных ставок по кредитам, формированию специальных предложений с более интересными условиями для разных сегментов заемщиков».

Ставки по кредитам снижаются не для всех подряд, а для клиентов с «высокой финансовой грамотностью»

В Сбербанке заявили TAdviser, что использование технологий Big Data помогает точнее определить текущий риск-профиль клиента, его интересы и потребности, что в итоге позволяет банку делать «своевременные и персонализированные предложения» в части предоставляемых услуг.

Например, использование информации по движению средств по счетам клиентов, анализируя их структуру трат, банк может оценить умение клиента распоряжаться его денежными средствами. Это, в свою очередь, напрямую влияет на вероятность невозврата денежных средств в срок.

«
Естественно, такая вероятность закладывается в процентную ставку по кредиту, и мы можем выдать заем по пониженной ставке людям, обладающим высокой финансовой грамотностью и правильно планирующим свои траты, - пояснили TAdviser в Сбербанке.
»

В качестве примера клиентов, умеющих правильно рассчитывать свои траты, несмотря на небольшой доход, являются пенсионеры, говорят в Сбербанке. Зачастую им банк выдает кредиты по пониженной процентной ставке.

В отчете также указывается, что данные о клиентах для последующего анализа Сбербанк черпает, в том числе, из социальных сетей и от сотовых операторов, охватывая категории населения от молодежи до пенсионеров.

Анализировать большие данные Сбербанка будут студенты МГУ

В марте 2017 года Сбербанк и факультет вычислительной математики и кибернетики (ВМК) МГУ сообщили об открытии исследовательской лаборатории «ВМК-Сбербанк», которая будет специализироваться на теории риска и анализе данных для банка. Лаборатория сфокусируется на поддержке передовых исследований и разработок в области статистических методов анализа больших данных и машинного обучения.

Отвечая на вопрос TAdviser на официальном открытии лаборатории, вице-президент Сбербанка Александр Ведяхин рассказал, что в реестре банка есть около 500 задач, связанных с аналитикой, и каждый квартал добавляется по 30-50 новых задач. Самые сложные и интересные задачи Сбербанк планирует решать в рамках новой лаборатории, сказал он.

Александр Ведяхин (на фото справа) на открытии лаборатории (фото TAdviser)

Спектр задач, связанных с анализом данных в банке, очень широкий: от анализа клиентского опыта для предоставления оптимального кредитного предложения, до риск-менеджмента, до управления информационной безопасностью и оптимизации ИТ-процессов, добавили в Сбербанке.

Завкафедрой математической статистики ВМК МГУ Виктор Королев, который руководит лабораторией, сообщил TAdviser, что первая задача в области анализа данных, которую ВМК уже решал для Сбербанка, связана с оптимизацией инкассационной деятельности банка. C математической точки зрения это задача оптимального управления ресурсами. Она потребовала разработки новых подходов и применения технологий, связанных с машинным обучением, сказал Королев. Результаты ее выполнения уже приняты Сбербанком к практической реализации, добавил он.

В текущем портфеле задач лаборатории есть задачи, связанные с анализом рисков, анализом текстов, с переработкой больших объемов информации, чтобы, например, составить портрет потенциального клиента банка, рассказал Королев TAdviser.

Представители Сбербанка и ВМК МГУ рассказали TAdviser, что от вида результатов работ будет зависеть, кому они будут принадлежать на выходе. Результаты могут быть представлены в виде моделей и алгоритмов, сервисов и приложений, в виде научных статей и др. Александр Ведяхин заявил TAdviser, что прикладные результаты будут на стороне Сбербанка. При этом в процессе решения прикладных задач могут появиться и новые фундаментальные результаты, новые подходы, которые останутся за МГУ.

К выполнению задач в лаборатории планируется привлекать студентов и аспирантов ВМК. Сколько всего их будет задействовано в работе лаборатории, на ВМК сказать затруднились. Всего на факультете на дневном отделении учится порядка 2000 студентов. В основном, в ее работе будут участвовать студенты кафедры математической статистики. Курировать работу будут порядка 10 сотрудников факультета ВМК, уточнили TAdviser представители факультета.

Помимо проведения исследований и разработок лаборатория ставит целью способствовать подготовке кадров. В Сбербанке говорят, что студенты ВМК очень востребованы и на рынке, и внутри их банка и в «Сбертехе».

Факультет заинтересован в том, чтобы через те важные и нужные задачи, которые поставляет Сбербанк, «прокачать», пропустить как можно больше студентов и аспирантов, сказал TAdviser представитель ВМК МГУ.

Объемы финансирования лаборатории Сбербанк не раскрывает. Александр Ведяхин характеризует их как «достаточные, чтобы увлечь студентов, кафедру, и чтобы всем было интересно».

В марте 2016 года МГУ и Сбербанк заключили соглашение о стратегическом сотрудничестве. Оно предусматривает сотрудничество в сферах образования, научно-исследовательской и социально-экономической деятельности.

Расширение возможностей платформы Informatica Intelligent Data Platform для работы с большими данными

Для расширения функциональности платформы Informatica Intelligent Data Platform Сбербанк в начале 2017 года приобрел компонент для работы с большими данными Informatica Big Data Management. Подробнее о проекте здесь

2016

Сбербанк начал охоту на специалистов по блокчейну и Big Data

Сбербанку нужны квалифицированные ИТ-специалисты, сообщил в начале декабря 2016 года глава банка Герман Греф в ходе «прямой линии» с сотрудниками, сообщает агентство «Прайм».[1] Для них в банке есть возможности серьезного роста зарплат.

Греф отметил, что банку нужны, в частности, специалисты в сфере больших данных, а также блокчейн-разработчики. По его словам, профи в этих направлениях будут иметь высокую ценность в банке, и, в отличие от других сотрудников, зарплата которых регулируется и ограничена рынком, этим специалистам банк готов существенно повышать зарплаты по мере наращивания их компетенций. Подробнее здесь.

Сбербанк открыл свои большие данные

22 ноября 2016 года Сбербанк анонсировал запуск проекта «Открытые данные», в рамках которого кредитная организация начала делиться информацией по финансовой активности своих клиентов. Проект построен по технологиям Big Data. Подробнее о проекте здесь.

Создание распределенной системы хранения и обработки супермассивов данных на базе Hadoop

Сбербанк выбрал платформу Hadoop в качестве стандарта и в середине 2016 года проводил закупку распределенной системы хранения и обработки супермассивов данных на базе этой платформы. Подробнее о проекте здесь.

Инвестиции в разработчика GridGain

Для развития Big Data в начале 2016 года Сбербанк инвестировал в разработчика, специализирующегося на этом - компанию GridGain Systems (Гридгаин Рус). Греф охарактеризовал ее как компанию, «которая выиграла тендер у Oracle, IBM и других, оказалась на порядок выше этих крупнейших компаний». Подробнее о сделке и компании здесь.

2015: Сбербанк выбрал «Яндекс» для работы с Big Data

В 2015 году «Яндекс» стал консультантом Сбербанка по решению задач, связанных с обработкой и анализом больших массивов информации. Для сотрудничества по данному направлению был заключен контракт на сумму в 13,7 млн рублей. Подробнее о сотрудничестве здесь.

ИТ-паспорт проектов в Сбербанке РФ