2021/05/24 14:22:54

Big Data и BI Day 2021

28 апреля 2021 года состоялась конференция «Big Data и BI Day 2021»

Содержание

28 апреля 2021 года в Москве состоялась конференция Big Data и BI Day 2021, организованная аналитическим центром TAdviser. Участники мероприятия обсудили актуальные тренды в этой области, особенности практического применения инструментов Big Data и BI и экономические эффекты, которые можно от таких инструментов получить.

Конференцию посетили более сотни человек. В их числе представители Центробанка, ВТБ, Газпромбанка, Сбера, Министерства просвещения, Федерального казначейства, ДИТ Москвы, Департамента культуры города Москвы, Агентства промышленного развития города Москвы, X5 Retail Group, Unilever Rus, «Дикси», Ernst&Young, «Биннофарм Групп», «Инком-Недвижимости», Московского технологического института и многих других.

Бизнес — от ритейла и банков до металлообрабатывающих заводов — и госструктуры — от городских администраций до федеральных ведомств — так или иначе работают с большими данными. Этот процесс затронул всех. Нет больше «продавцов помидоров», как выразились спикеры от ритейла, есть крупные цифровые компании, которые нуждаются в соответствующих инструментах, позволяющих получать быстрый доступ к качественным данным. Своим опытом развития и использования таких инструментов поделились докладчики как со стороны вендоров, интеграторов, так и заказчики решений.

Государственная Big Data должна быть доступна всем гражданам

Государство уже прочно взяло на вооружение технологии Big Data. Сергей Сергиенко, советник министра цифрового развития РФ, рассказал участникам конференции TAdviser, в частности, о распределенной общегосударственной базе данных. Архитектура решения такова: в центре — единая информационная платформа, то, что называется Национальной системой управления данными (НСУД). В ней хранятся описания моделей данных, карты данных, нужных, чтобы понимать, в каких ведомствах и по каким нормативам ведется учет, как можно получить к этим данным доступ. Тут же обеспечивается контроль и мониторинг качества данных.

Сергей Сергиенко, советник министра цифрового развития РФ

Еще один компонент общегосударственной базы — система межведомственного электронного взаимодействия (СМЭВ), которая, по словам докладчика, претерпевает большие изменения. Например, там уже реализован синхронный протокол обмена, который должен дать новые возможности, в частности, для госуслуг.

Третья часть системы включает в себя витрины данных от государственных поставщиков: ПФР, Росреестра, ФНС, МВД и так далее, так как сами данные находятся на стороне ведомств и потребителей этих данных, таких как «Цифровой профиль» или информационные системы федеральных органов исполнительной власти. Boston Scientific отзывает бракованные сосудистые устройства, из-за которых люди умирают

Появление подобных витрин дает возможности для аналитики. Раньше было практически невозможно узнать, например, долю выпускников, работающих по специальности: понадобилось бы поднимать бумаги многих ведомств и искать там, где данные, часто, были закрыты. А теперь витрины дают возможность делать распределенные запросы.

«
Эта модель на апрель 2021 года отрабатывается. Мы надеемся, что уже в 2021 году сможем часть задач решать именно таким образом, — сообщил Сергей Сергиенко.
»

Перевод пилотных витрин в промышленную эксплуатацию, как ожидается, улучшит скорость получения данных, которая до этого момента существенно тормозилась асинхронной работой СМЭВ.

«
У нас нет никаких возможностей в нормативном поле, которые бы вынудили ведомства работать онлайн. А витрина — это та техническая основа, которая позволит перейти в онлайн и оказывать проактивные услуги, — подчеркнул Сергей Сергиенко.
»

Для реализации новых госуслуг важна не только скорость доступа, но и скорость внесения изменений в данные. Ожидается, что витрины улучшат и этот процесс. Что касается безопасности и качества данных, то те, что размещаются в витринах, не оказываются в публичном доступе. Эти данные закрыты, но появляется возможность применять к ним правила и смотреть, проходят ли они, например, формато-логический контроль, сохраняют ли ссылочную целостность. Становится доступным целый пласт инструментов контроля качества.

На 2021 год запланирован выпуск 20 витрин. Еще 16 будет добавлено в 2022 году. Помимо витрин, к описываемой базе данных присоединится еще одна часть — подсистема информационно-аналитического обеспечения.

«
Ситуация с ковидом обнажила проблему: мы плохо ориентируемся в том, где и какие данные хранятся, и как с ними работать, — сказал Сергей Сергиенко, — поэтому должен быть создан подобный общероссийский data lake, обеспеченный свежими данными из первоисточников.
»

Еще одно направление работы касается ИИ. В соответствии с указом президента о подготовке наборов данных для искусственного интеллекта, Министерство цифрового развития начало решать эту задачу.

«
И она очень хорошо легла на нашу информационную платформу, — замечает Сергиенко. — Теперь мы умеем описывать паспорта датасетов, делать разметки. К осени планируем добавить функционал, который позволит ФОИВам публиковать свои датасеты на открытом портале.
»

Планируемые изменения расширяют сферу деятельности НСУД. Если изначально система мыслилась как площадка для обмена данными только между ФОИВ, то теперь всё, что связано с предоставлением данных научному сообществу, бизнесу и гражданам, тоже входит в зону интересов Министерства цифрового развития.

«
Мы работаем над этим, — подчеркнул Сергей Сергиенко.
»

Превращаем месяцы в часы. Как ускорить работу с данными?

Обработка данных занимает много времени, но и до неё ещё нужно дойти. Ещё несколько лет назад время от идеи до начала разработки продукта могло составлять от нескольких месяцев до полугода. Никита Негго, исполнительный директор, лидер продукта «Лаборатория данных» Сбера, и Николай Корженевский, директор лаборатории «СберИндекс» Сбера, посчитали: получение данных занимало 2 месяца, на поиск инструментария и мощностей уходило еще 5 месяцев, вывод модели в промышленную эксплуатацию отнимал 14 дней.

«
У нас появилась идея кардинального изменения ситуации. Что-то вроде того, чтобы получать всё это за час, вкупе с полным инструментарием и актуальными библиотеками. Мы перешли к сервисной работе с данными, — рассказывает Никита Негго.
»

Никита Негго, исполнительный директор, лидер продукта «Лаборатория данных» Сбера

Чтобы достичь этой цели, понадобилось изменить архитектуру решения, внедрить более 10 инструментов для работы с данными, около 500 AI- и ML-библиотек и фреймворков, предустановленных для быстрого старта на рабочем месте, организовать несколько каналов поставки данных. Широко используются возможности виртуализации и кластеризации на базе OpenStack и OpenShift.

«
Мы хотели взять данные Сбера и работать с ними, моделировать макроэкономические процессы. Но данные хранились в разных местах, за каждой порцией информации нужно было ходить в очередной департамент. Теперь всё изменилось, — рассказывает Николай Корженевский.
»

Николай Корженевский, директор лаборатории «СберИндекс» Сбера

Получившуюся сервисную модель используют внутренние потребители для создания своих цифровых продуктов.

«СберИндекс» был создан в февраля 2020 года, и уже через месяц его попросили радикально ускориться. Причина всем известна — пандемия. Нужен был портал, который наглядно показывает, что происходит в макроэкономике прямо сейчас.

«
Мы хотели посмотреть, как чувствует себя потребитель и бизнес в условиях карантина, потому что никто не понимал ничего: насколько все плохо, продолжает ли страна функционировать, что вообще происходит. При этом нельзя просто взять список всех транзакций в банке и поделить их количество в апреле на мартовские показатели, сделав вывод, что всё упало на 70%, — говорит он. — В этом случае будет очень много искажающих факторов. Поэтому в мае 2020 года мы запустили несколько метрик самочувствия потребителя: индекс его активности, изменение расходов. Причем мы, в отличие от Росстата, даем их в начале месяца и более оперативно. Также мы запустили статистику для бизнеса. Всё это звучит просто, но если погрузиться в процессы, то вы сразу поймете, какая это была нетривиальная задача.
»

Для того, чтобы эффективно работать с моделями, построенными на большом количестве данных, понадобилась еще одна, методология — ModelOps. По словам Юрия Сироты, руководителя дирекции ИИ и анализа данных, банка «Уралсиб», внедрение математических моделей в продакшн имеет много общего с производством программного обеспечения, где, в свою очередь, уже хорошо зарекомендовала себя известная методология DevOps.

MLOps — это такой DevOps для машинного обучения. Цель данной методологии — упростить решение математических задач с помощью устоявшихся практик, обеспечивая гибкость и скорость.

Юрий Сирота, руководитель дирекции ИИ и анализа данных, банка «Уралсиб»
«
В коммерческих организациях данные нужны, чаще всего, для монетизации. Немалую долю инструментов монетизации составляют искусственный интеллект и машинное обучение. Для того, чтобы применять эти инструменты, нужны правильные методики, — поясняет Юрий Сирота.
»

Математические модели сложно интегрировать с фронт-офисными системами. А ведь нужна еще и непрерывная интеграция с источниками данных. Жизненный цикл моделей длинен, при этом постоянно требуются новые релизы. Отсутствие координации между математическим подразделением, занимающимся этими моделями, бизнесом и ИТ-подразделением, которое будет внедрять готовые модели в продакшн, приводит как к ошибкам, так и к задержкам. Без налаженного математического конвейера обновление моделей будет трудоемким. Невозможно поддерживать производственное математическое моделирование в долгосрочной перспективе.

MLOps сложнее, чем DevOps. Причина в том, что модели нужно создавать на самых свежих данных. В программной инженерии разработчик пишет код, который четко определен в программном пространстве, детерминирован: его отладили в тестовой среде, запустили в продакшн и он работает. В анализе данных, помимо написания самого кода, нужно контролировать гиперпараметры, и логика тут недетерминирована, зависима от данных. Код и математический алгоритм — это функция от данных. Меняются данные — меняется код. Приходится контролировать не только код, гиперпараметры и математические алгоритмы, но и сами датасеты. Это добавляет уровень сложности ко всей истории внедрения искусственного интеллекта.

Для решения этих проблем и создан MLOps. Методология поможет обеспечить контроль за версиями моделей, отследить всю родословную параметров, алгоритмов и данных, проверить их качество, а также улучшить безопасность и проконтролировать доступ, который смогут получить только доверенные пользователи.

Отечественная Big Data: можно ли импортозаместить Oracle?

Дмитрий Алексеев, заместитель руководителя департамента технологического развития общебанковских систем банка ВТБ, поднял острую для многих организаций тему — рассказал об опыте импортозамещения программного обеспечения. ВТБ слился с рядом дочерних банков и в связи с этим с 2019 года приступил к поэтапному объединению ИТ-ландшафта, а именно хранилищ данных, в единую ИТ-платформу. Три разрозненные базы данных увеличивали стоимость владения инфраструктурой, не давали развивать бизнес-функционал быстро, сроки доступа к информации увеличивались, а её рассогласованность попросту мешала, особенно в том случае, когда данные запрашивал регулятор и сроки предоставления были жесткими.

Дмитрий Алексеев, заместитель руководителя департамента технологического развития общебанковских систем банка ВТБ

Устарели и решения, на которых были построены хранилища — настала пора сменить технологический стек, при этом подумав о том, чтобы отказаться от иностранного ПО.

«
У нас уже были случаи, когда санкции влияли на взаимодействие с производителем ПО, это уже реальные кейсы, — отмечает Дмитрий Алексеев. — В большей степени это касается американских и канадских производителей».
»

На старте проекта были поставлены следующие цели:

  • сократить объем дублированных данных, повысить качество данных;
  • унифицировать технологический стек, сократить ТСО;
  • сократить регламент загрузки данных;
  • ускорить скорость разработки и время вывода цифровых продуктов в эксплуатацию;
  • отказаться от решений, поддержка которых прекращена вендором.

Требования к новой технологической платформе были серьёзными. ВТБ нуждался в высокой функциональности решения, в производительности, хорошей русскоязычной техподдержке, оптимальной стоимости владения на горизонте в 5-10 лет, возможности влияния на планы по реализации нового функционала и, наконец, в отсутствии санкционных рисков и в продаже решения в виде программно-аппаратного комплекса, который впоследствии можно будет гибко масштабировать.

В результате выбор пал на отечественный продукт ArenaData. Спикер продемонстрировал результаты сравнительного тестирования кластера ПАК «Скала» с ArenaData DB и Oracle SuperClaster T5-8. Были развернуты два похожих контура, где сравнивались скорость выполнения запросов. Картина производительности была признана сопоставимой. Oracle слегка лидировал везде, кроме теста по запросу на обновление сумм по ГПП. В целом ArenaData DB показала хорошую производительность как в ходе синтетических тестов, так и на реальных нагрузках.

Ставить неапробированное решение сразу на всю платформу данных — слишком авантюрное занятие, особенно для банка. Поэтому сначала было решено испробовать ПАК на системе подготовки отчетности ВТБ, которая, по словам Дмитрия Алексеева, достаточно агрессивно растёт. В результате удалось в несколько раз повысить скорость построения отчётности, наполовину сократить стоимость владения платформой и на 100% исключить как санкционные риски, так и те, что связаны с волатильностью курса рубля.

«
Мой доклад звучит очень позитивно, — говорит Дмитрий Алексеев. — Безусловно, без проблем не обошлось, но у нас получалось их решать в штатном порядке, без каких-то взрывных ситуаций.
»

Изменения в ВТБ переживают не только хранилища данных. В рамках глобальной цифровой трансформации банка планируются изменения или замена большого количества ключевых систем. Пока же готовую платформу по работе с данными предполагается получить к концу 2022 года.

В ходе стейдж-интервью снова затронули тему цифровой трансформации, так как и «Газпромбанк», который представлял Адель Валиуллин, исполнительный директор Департамента анализа данных и моделирования, с 2018 года находится в гуще активных внутренних изменений, только здесь они связаны не со слияниями, а с изменением стратегии. Банк, созданный изначально для корпоративного сектора, решил обратить внимание на розницу, так как доходность первого направления начала снижаться.

Адель Валиуллин, исполнительный директор Департамента анализа данных и моделирования «Газпромбанка»

Один из проектов, созданный в рамках цифровой трансформации — Datalab — призван развивать собственное хранилище данных, аккумулирующее данные из всех внутренних источников и работающее потом в качестве «единого окна» на выдачу доступа к ним.

«
Это позволяет строить огромное количество моделей и извлекать пользу для бизнеса, — прокомментировал Адель Валиуллин, — Но процесс построения такого хранилища долог, мы до сих пор не подключили все источники, работаем над этим. Зато уже удалось запустить программы по внедрению проектов машинного обучения. Кроме того, появились хранилища, позволяющие использовать данные партнеров, например, сотовых операторов или интернет-компаний. Всё это позволяет строить более точные модели.
»

Павел Ульихин, руководитель центра компетенций BI и RPA, «Объединенная металлургическая компания» заглянул в недалекое прошлое и рассказал, чем обернулось внедрение BI в их организации. Изначально стояла следующая цель: дать бизнес-пользователям инструмент для того, чтобы они могли самостоятельно, без привлечения ИТ-специалистов, строить отчеты и нужные дашборды на своих данных из хранилища. Цели выдать дашборды для топ-менеджеров, чтобы они принимали решения на совокупных данных, не ставилось.

Павел Ульихин, руководитель центра компетенций BI и RPA, «Объединенная металлургическая компания»

Вначале компания столкнулась всё с той же проблемой выбора: сложно было остановиться на какой-то определенной BI-системе. Критериев выбора было 95. В результате к рассмотрению подошло четыре решения: Qlik Sense, SAP Lumira, Power BI и Tableau. Внедрена последняя.

После внедрения приступили к последующим этапам реализации плана. Были выделены сотрудники, которые прошли обучение и сформировали проектную команду, а затем могли бы вернуться каждый в свое подразделение и заняться разработкой на местах. Кроме того, подготовили множество инструкций и обучающих видеороликов, сформировали техническую и функциональную поддержку. Последняя занималась консультацией пользователей относительно сути работы с дашбордами.

Всего на проект от старта до финиша ушло 2 года. Было создано 35 инфопанелей, 3 регламента, база знаний, 3 линии поддержки. Закуплено 175 лицензий. Казалось бы — время наслаждаться плодами своих трудов. Но именно теперь ОМК столкнулась с новыми сложностями. Для начала дашборды стали популярны, ими заинтересовалось руководство. Тем же пользователям, кто создавал их, не хватало то квалификации, то времени, чтобы удовлетворить растущий интерес и запросы со стороны. Некоторые отделы вообще не могли выделить сотрудников, которые могли бы взять на себя задачу по BI.

Необходимость в постоянном обучении пользователей постоянно нарастала, а поддержка не всегда оказывала свои услуги качественно, плюс у них тоже не хватало времени на то, чтобы быстро реагировать на какие-то критичные инциденты.

Всё это означало, что проект не окончен. Для начала создали центр компетенций, причем он состоит всего из трех сотрудников, которые занимаются непосредственно разработкой. Лишь недавно в команде появился дата-инженер для создания быстрой отчетности. Но и это не стало точкой. Оказалось, что в управляющей компании одни потребности и запросы, на производстве — другие. Многие сотрудники вообще не знали, что в их организации есть BI-инструменты, которыми можно пользоваться самостоятельно. Это неудивительно, так как в «Объединенной металлургической компании» работает более 34 тыс. человек, в её составе вагоноремонтная компания (одна из крупнейших в стране), 6 металлургических и машиностроительных предприятий, металлосервисная и торговая сети.

В результате центр компетенций прошел тот путь выхода на рынок, который проходят все товары и услуги. Отличие было только одно: речь шла про рынок внутренний. На нулевом этапе проводились встречи, собрания, где сотрудники говорили о своих потребностях и узнавали от консультантов, в том числе от представителей вендора, как эти потребности удовлетворить именно средствами BI. Проводились внутренние конференции, демонстрации, была проделана как работа с ИТ, так и с менеджментом. Далее был выстроен централизованный процесс разработки, состоявший из поиска потребностей, анализа, оценки стоимости реализации, непосредственно разработки и дальнейшей поддержки, которая могла осуществляться как самими пользователями, так и центром компетенций, если сотрудники по объективным причинам не могли поддерживать дашборды самостоятельно.

Дальнейшая работа происходит в формате релизов и их обсуждений, дискуссий между заказчиками и исполнителями; таким образом формируются задачи и приоритеты для последующих релизов.

«
При этом самообслуживание никуда не делась. Мы считаем, что это правильное направление, и продолжаем его развивать и поддерживать, — подчеркивает Павел Ульихин.
»

Ритейл сегодня — это большой цифровой бизнес. X5 Retail Group прошел длинный путь от «продавца помидоров» до диджитал-компании», говорит Екатерина Михальчук, директор по развитию аналитики, X5 Retail Group. В своем выступлении она рассказала историю, напоминающую ту, о которой поведал Павел Ульихин, только более масштабную. От нуля сотрудников и компетенций в области Big Data и BI ритейлер дошел до развитой agile-культуры, тысячи специалистов, сотни продуктовых команд, более 10 тыс. пользователей, ежедневно работающих с аналитикой. Хотя до недавнего времени в компании продолжали думать, что waterfall — «это наше всё», отмечает докладчица.

Екатерина Михальчук, директор по развитию аналитики, X5 Retail Group

Глядя на эти цифры, сразу хочется спросить: где же брать такое количество квалифицированных специалистов? Тот же вопрос задала себе и сама X5 Retail Group. Ответ был такой же, какой дала и «Объединенная металлургическая компания» — нужно переходить к концепции самообслуживания, ведь чем более цифровизирована организация, тем сильнее нарастает её потребность в данных и отчетах.

Вначале было много опасений: у пользователей нет компетенций, нет инструментов, данные неподготовлены, к ним нет доступа, а главное — ни у кого нет достаточной мотивации. Что сделала компания? Организовала собственную платформу, которую обслуживает ИТ-подразделение. Платформа представляет собой промышленное BI-решение с каталогами данных, витринами (EDW) и аналитическим порталом. Команда X5Tech отвечает за то, чтобы данные были качественны и доступны на витринах, чтобы каталог наполнялся, чтобы дашборды были промышленные. Пользователи получают данные, создают по ним необходимую отчетность или же могут добавить новый источник данных.

«
Мы демократизируем навыки, — рассказывает Екатерина Михальчук. — У нас создана Цифровая академия, в которой мы обучаем специалистов работе с данными, сертифицируем их и предоставляем инструменты для того, чтобы дальше они могли пользоваться всем самостоятельно. Кроме того, развиваем большую аудиторию Data community: это форумы, телеграм-каналы, где можно общаться, задавать свои вопросы.
»

Сервисами BI-самообслуживания у ритейлера обычно пользуются две категории специалистов: это исследователи и это эксперты-инноваторы. Исследователям важна визуализация данных, поэтому они могут изменять готовый, уже существующий дашборд без добавления данных в модель, но также имеют возможность добавлять свои данные, если это требуется. Бизнес-аналитики обычно изменяют и модель, и сам дашборд. Таких меньше. И лишь небольшая часть сотрудников занимается прогнозированием или моделированием.

Говоря о достигнутых результатах, Екатерина Михальчук отметила, что запросы на автоматизацию сократились в 5 раз, и сотни бизнес-пользователей уже начали работать по принципу самообслуживания. Уровень удовлетворенности тоже вырос, и это важно.

BI в деле. Зачем мэру, магазину или заводу свои дашборды?

Данные не главное. Главное — извлечь из них пользу. Простота и информативность нужна не только бизнес-пользователям, но и государственным менеджерам, правителям городов. Александр Зенков, руководитель отдела автоматизации градостроительного проектирования, Институт территориального планирования «Град», и Сергей Куликовский, генеральный директор компании «Полиматика», рассказали, как выглядит рабочее место руководителя для управления городом.

Александр Зенков, руководитель отдела автоматизации градостроительного проектирования, Институт территориального планирования «Град»

Мэр или губернатор получает доступ в следующие разделы: «население», «жилищный фонд», «социальная, транспортная и инженерная инфраструктуры», «инвестиционные площадки» и «стоимость мероприятий», «количество оказанных услуг». Информационные панели позволяют оценивать достижение целей по разным программам, допустим, в социальной сфере, то есть получать информационную справку и следить за количественными изменениями нужных объектов, например, отслеживать количество мест в общеобразовательных учреждениях в динамике. Дашборды помогают принимать решения, наглядно показывая, как обстоят дела с жилищным фондом при учете данной демографической ситуации, с ремонтом дорог, с затратами

Сергей Куликовский, генеральный директор компании «Полиматика»

Есть доступ к панелям мониторинга планируемых сроков и стадий реализации инфраструктурных объектов. Здесь можно увидеть, как соотносятся планы с реальностью. Вкладка «Планирование бюджета» показывает, сколько денег потрачено на то или иное мероприятие и как профинансированы, например, театры или музеи в процентном соотношении, позволяя запланировать будущее распределение денежных средств.

Александр Зенков выделил перспективы развития:

«
Решение дает возможность быстро создавать новые информационно-аналитические панели, публиковать показатели текущего состояния в свободном доступе так, чтобы жители Нижневартовска могли с ними ознакомиться через Интернет. Например, они могут увидеть, что планируется построить через год или пять лет. Кроме того, есть возможность интегрировать дашборды с информационными системами городской администрации и, таким образом, автоматизировать поток данных, на основе которых строятся показатели.
»

В поисках простоты. Разработчики рассказали, как работают над улучшением клиентского опыта

Большие данные — большие проблемы. Николай Друкман, директор департамента SpectrumData — компании, которая занимается сбором данных из разрозненных источников под определенный запрос, обрабатывает и предоставляет полученный результат заказчикам в формате, удобном для бизнеса — рассказал, как непросто выглядит работа с данными на этапе их подготовки. Проблем возникает множество: данные неструктурированы, содержатся в самых разных формах и форматах, структура и доступность источников нестабильна, информации в них недостаточно, нет исторических данных, при этом себестоимость извлечения всех нужных сведений высока, часто их приходится собирать вручную.

Николай Друкман, директор департамента SpectrumData
«
Один из наших клиентов — это сервис проверки автомобилей. Казалось бы, нужна простая вещь — работа с реестром такси. Процедура регламентирована: каждый регион должен вести свой собственный реестр лицензий, выданных на пассажироперевозки легковым транспортом. Но мы столкнулись с тем, что каждый регион придумал свой собственный формат ведения такого реестра. Данные открыты, но где-то для скачивания дают PDF, где-то — Excel, а где-то — отсканированные листы. Это один из самых простых примеров, мы решаем и более сложные проблемы, — рассказывает Николай Друкман.
»

С данными можно общаться, минуя системы отчетности. Причем с помощью необычного инструмента — в мессенджере. О том, как удалось подключить тысячи пользователей к данным, рассказал Юрий Ефаров, генеральный директор, Sapiens Solutions. Легкий BI, который всегда под рукой — так он назвал решение Easy Report.

«
Мы не оценивали рынок и не считали метрики. Начало проекта было не из-за денег, а по любви. Через год получившийся продукт начал нравиться нам самим. Через простой мессенджер мы задаем вопросы на естественном языке, а бот выдает ответы: простую аналитику с возможностью детализации. На этом моменте мы показали решение клиентам, и сами поняли, что не сможем конкурировать с уже имеющимися системами отчетности вроде Tableau. Это было обидно, ведь мы трудились целый год. Но тут сами клиенты подтолкнули к другой нише, которую мы и заняли. Есть серьезные инструменты, которые позволяют общаться с данными десяткам и сотням пользователей, но у них наблюдается два минуса, если нужно демократизировать данные и дать доступ тысячам. Во-первых, эти инструменты довольно дорогие в пересчете на одного пользователя, во-вторых, их непросто внедрить, обучить работе с ними, поддерживать продукт.
»

Юрий Ефаров, генеральный директор, Sapiens Solutions

Easy Report занял пустующую нишу, давая возможность общаться с данными через сверхтонкий клиент, который есть у каждого (смартфон). База данных адаптирована под большое количество запросов, а стоимость решения не зависит от количества конечных пользователей. При этом учить никого не нужно: общение с ботом строится на обычном языке, даже можно использовать синонимы. Бот сформирует отчет, наиболее близкий по смыслу к исходному запросу.

Но принимать решения, руководствуясь данными, интенсивно поступающими в режиме реального времени, стоит осторожнее. IoT, онлайн-активность, POS-платежи, работа в личных кабинетах и мобильных приложениях — источников потоковых данных становится всё больше, и все эти данные можно включать в системы принятия решений. Преимущества работы с потоковыми данными очевидны: предсказательная сила моделей увеличивается, так как нет потери самых свежих данных, время между событием и принятием решения сокращается, модели быстрее выводятся в промышленную эксплуатацию за счёт перехода к непрерывной обработке данных.

Но, как сказал Сергей Кедров, руководитель направления скоринга, машинного обучения и предиктивной аналитики, ADV, потоковые данные, в отличие от тех, что обрабатываются пакетно, самые свежие, нет тех, что еще необработаны, но минус в том, что «фарш невозможно провернуть назад» — решение принято, оно влияет на бизнес, процессы и клиентов.

Сергей Кедров, руководитель направления скоринга, машинного обучения и предиктивной аналитики, ADV

Вся технологическая обвязка, которая разрабатывается, связана именно с тем, чтобы в реальном времени проверять надежность данных. Необходим как непрерывный контроль за качеством данных, ведь любые изменения в их потоке приведут к риску выдачи ошибочных предсказаний, так и постоянный контроль за качеством моделей. Важно уметь реагировать быстро и, при надобности, дообучать модели, переключаться на более стабильные версии или иметь много конкурирующих версий моделей для машинного обучения.

Представители компании LuxmsАлексей Медников, директор по инновациям и Дмитрий Дорофеев, главный конструктор — рассказали о кейсе с визуализацией KPI — решении, разработанного для некого крупного клиента. Оно оказалось настолько удачным, что вскоре всё больше функциональных подразделений и региональных офисов компании-заказчика начали подключаться к нему, образуя, тем самым, новые источники информации для системы. В результате объемы данных росли, как снежный ком.

«
Под большими данными мы понимаем объемы от 100 млн записей и больше или от тысячи потоковых событий в секунду, — дал определение Алексей Медников.
»

Алексей Медников, директор по инновациям Luxms

Рос не только объем данных, но и количество пользователей, а стало быть, и нагрузка на ПО, в результате чего время отклика — один из важнейших показателей для информационной системы — ухудшился.

«
Мы задумались о повышении производительности системы, но все наши попытки решить проблему инфраструктурными методами к успеху не привели, — углубляется в детали Алексей Медников. — Поэтому было решено изменить архитектурные подходы к построению системы и сделать реинженеринг отдельных конструктивных элементов.
»

Оказалось, что и с этим не всё так просто. На рынке Big Data и BI существует множество подходов, технологий и практик, из которых сложно с первого раза и точно выбрать те, что помогут решить проблему сразу же. Компания Luxms столкнулась не только с инженерными задачами, но и с классическим парадоксом выбора.

Решение остановили, во-первых, на двухзвенной клиент-серверной архитектуре (two-tier), которая позволяет редуцировать один слой обработки данных между пользователем и системой. В научной литературе, сравнивая двухзвенную и трехзвенную архитектуру, обычно обращают внимание на проблемы первой.

«
Она экзотическая, её не рекомендуют использовать — так пишут в книгах те, кто пытался задействовать именно такой тип, но мы посчитали, что те преимущества в скорости, которые она даёт, в нашем случае перевесят недостатки, — рассказывает Дмитрий Дорофеев.
»

Во-вторых, помимо двухзвенной архитектуры, используются микросервисы, есть возможность оркестрации выполнения запроса с использованием как базы данных, так и дополнительных элементов, которые запускаются отдельно. Еще одна мера, принятая для ускорения работы ИС — использование специализированного ПО отдельно для работы с «горячими» данными, отдельно — для «теплого» и «холодного» слоев. Были выбраны ClickHouse, GreenPlum и Hadoop соответственно.

При внедрении BI-систем есть видимая часть айсберга — непосредственно дашборды, которые можно быстро делать на современных инструментах — и невидимая, это те силы и средства, затраченные на создание этих дашбордов. Сама подготовка данных к работе происходит медленно.

«
Иногда даже перенос информации из холодного слоя в горячий слой неэффективен или невозможен — вот что самое удивительное. Бывают ситуации, когда данные нужно достать за 2 часа, но этих двух часов просто нет или же этот процесс даёт такую нагрузку, что остальные запросы в это время не выполняются. Если вы не богатая компания с собственным облаком, то проблема вам, наверняка, знакома, — замечает Дмитрий Дорофеев.
»

Дмитрий Дорофеев, главный конструктор Luxms

Это узкое место обошли, положив сырые данные в быструю систему обработки (например, Tarantool) и применив post-ETL инструменты. В результате на одном из проектов у заказчика удалось сократить в 30 раз процессы извлечения, преобразования и загрузки данных из 9 разных таблиц с сырыми данными из баз данных типа Oracle и PostgreSQL.

Последний совет от Luxms — выгружать нужные по проекту данные в небольшие кластера для аналитиков, чтобы снять так называемую проблему coffee break analytic, когда аналитик посылает запрос и уходит на час отдыхать, потому что этот запрос будет обрабатываться именно столько или даже больше, при этом без гарантий результата.

По завершении конференции и в перерыве участники оживленно общались в неформальной обстановке.

Архив конференций Big Data и BI Day:

Информация о партнерах конференции

SpectrumData - маркетплейс данных об автомобилях, физических лицах, компаниях и объектах недвижимости для бизнеса. Мы работаем с данными с 2010 года: занимаемся сбором, агрегацией, обработкой и анализом данных с применением принципов и технологий Data mining и Big data. На текущий момент мы получаем данные более чем из 100 источников – государственных ресурсов, официальных и коммерческих баз, обеспечивающих высокую степень актуальности, скорости и надежности. Любая информация, предоставляемая нами, проходит контроль на полноту, достоверность и соответствие требованиям законодательства РФ.