Проект

Как и зачем «РТС-тендер» создал «озеро данных» на 200 ТБ

Заказчики: РТС-тендер

Москва; Интернет-сервисы

Продукт: Apache Hadoop
Второй продукт: Apache Kafka

Дата проекта: 2017/09
Технология: СУБД
подрядчики - 273
проекты - 776
системы - 308
вендоры - 148

«РТС-тендер», одна из крупнейших в России электронных площадок для проведения закупок, построила Data Lake («озеро данных») – хранилище данных, рассказали TAdviser в компании в апреле 2018 года. Создано оно на базе открытых технологий, таких как Hadoop, Apache Spark, Kafka, Hive и других.

Data Lake наполняется данными клиентов «РТС-тендер», заказчиков и поставщиков в сфере закупок, которые аккредитовались на площадке, а также взятыми из открытых источников, в частности, из ЕИС госзакупок: информация из документации, действия клиентов на площадке, тендеры, в которых принимают участие и прочее. По состоянию на апрель в нем хранится порядка 200 ТБайт данных.

Данные в компании используются для бизнес-аналитики и OLAP, формирования отчетности, дэшбордов, в том числе в мобильном приложении.

«
Мы используем данные в первую очередь для оптимизации процессов, разработки решений, упрощающих работу пользователя на площадке. Например, наш сервис по актуальным предложениям, работа которого построена на анализе поведенческого профиля пользователя, собирает и анализирует данные о конкретном пользователе, чтобы в конечном итоге при помощи алгоритмов машинного обучения предложить пользователю участие в подходящих именно ему тендерах. А это уже кастомизированный подход, лояльность пользователей и монетизация новых решений для бизнеса, - пояснил TAdviser Владимир Григоренко, директор по цифровым технологиям «РТС-тендер».
»

Решения, на базе которых построено озеро данных «РТС-тендер»

Ранее «РТС-тендер» поэтапно использовала классическую реляционную СУБД и Data Warehouse для анализа и обработки данных. По состоянию на апрель новые сервисы на основе машинного обучения используют данные, хранимые в Data Warehouse, но сами алгоритмы их обработки уже выполняются при помощи облачных систем. Когда данные в Data Lake будут перенесены в достаточном объёме, туда же будут перемещены и алгоритмы обработки. Полный переход на Data Lake компания рассчитывает осуществить в течение полугода-года.

Владимир Григоренко выделяет ряд преимуществ методологии Data Lake перед ранее использовавшимися инструментами. Во-первых, в Data Lake предусмотрено хранение «сырых» данных. И это позволяет сохранить все данные пользователей без искажений и не тратить время на их преобразование. В дальнейшем, алгоритмы анализа и обучения могут обращаться к тем данным, которые им нужны для решения задачи, без дополнения и реорганизации всего массива данных, объясняет представитель «РТС-тендер».

«
Методология Data Lake реализована с использованием открытых стандартов и платформ с открытым исходным кодом. Это дает возможность их простого внедрения без больших финансовых затрат, - приводит Григоренко еще одно преимущество.
»

Помимо этого, текущая экосистема, выстроенная вокруг методологии Data Lake, имеет большое количество инструментов для эффективного решения разных бизнес-задач, добавил директор по цифровым технологиям «РТС-тендер». Такие платформы как Hadoop, Spark уже широко используются крупными компаниями в разных сферах. Библиотеки машинного обучения, разработанные для этих платформ, позволяют эффективно и быстро решать сложные задачи.

Основная ИТ-инфраструктура «РТС-тендер» построена на технологиях Microsoft. В компании говорят, что рассматривали различные решения для построения «озера данных», но остановились на открытых решениях как на наиболее эффективном варианте.