Проект

Новолипецкий металлургический комбинат, НЛМК (ADH - Arenadata Hadoop)

Заказчики: Новолипецкий металлургический комбинат, НЛМК

Новолипецк; Металлургическая промышленность

Подрядчики: Инфосистемы Джет
Продукт: ADH - Arenadata Hadoop
На базе: Apache Hadoop
Второй продукт: Apache Kafka
Третий продукт: Apache Hive

Дата проекта: 2018/08 — 2019/08
Количество лицензий: 20
Технология: СУБД
подрядчики - 273
проекты - 776
системы - 308
вендоры - 148
Технология: BI
подрядчики - 451
проекты - 3063
системы - 1151
вендоры - 560
Технология: Data Mining
подрядчики - 252
проекты - 849
системы - 291
вендоры - 209

2019: Построение Data Lake

Масштаб проекта:

  • 7840 человеко-часов
  • 20 автоматизированных рабочих мест

Использованное ПО:

Решение реализовано на базе отечественного дистрибутива распределенной платформы хранения Arenadata Hadoop. Для решения задач сбора, передачи, трансформации и накопления данных были использованы сервисы Apache Kafka, Apache NiFi и Apache Hive.

Компания НЛМК определила стратегию, затем специалисты ИТ-компании разработали и реализовали техническое решение на платформе Arenadata Hadoop. Внедренная платформа САДиМ класса решений Data Lake собирает данные, предоставляя информацию о производственных и технологических процессах моделям машинного обучения.

Специалисты настроили регулярную выгрузку данных в «озеро данных» из 70 источников (датчиков, а также MES и АСУ ТП), а также загрузили исторические данные за последние несколько лет работы предприятия и разработали карты данных технологических и производственных процессов отдельных цехов. Емкость построенного «озера данных» составляет 300 терабайт.

В рамках проекта команда подрядчика разработала для НЛМК модель унифицированной витрины данных, реализовала управление мета-данными средствами Apache Atlas (тэгирование, поиск и т.д.) и настроила централизованную ролевую модель, интегрировав ее со службой каталогов Active Directory. Это дало возможность дата-саентистам максимально оперативно получать в Data Lake доступ к нужным им данным.

Для контроля работы Data Lake настроен комплексный мониторинг состояния сервисов системы в Zabbix, а также автоматизирован контроль целостности и полноты данных. Для особо важных и уязвимых данных создана возможность резервного копирования: то есть, в случае непреднамеренного уничтожения данных пользователем их можно будет восстановить.