2024/06/06 17:29:31

Big Data и AI Day 2024

2 октября состоится конференция «Big Data и AI Day 2024»

Содержание

2 октября в Москве TAdviser организовал и провел конференцию Big Data and AI Day 2024, посвятив ее проблематике использования бизнесом технологий искусственного интеллекта и анализа больших данных. Вел мероприятие Дмитрий Шведов, руководитель департамента бизнес-анализа, «Цифровые технологии и платформы».

Конференцию посетили представители таких организаций, как РГУНХ Минсельхоза России, ППК « Роскадастр», «Мечел», Федеральное агентство водных ресурсов, Департамент информационных технологий г. Москвы, ВНИИ по проблемам гражданской обороны и чрезвычайных ситуаций МЧС России, МФТИ, Институт системного программирования РАН, РАНХиГС, «Норильский никель», «Аэрофлот», Johnson&Johnson и многих других.

Данные храним, перевозим, управляем ими

На новых методах проектирования хранилищ данных (DWH) остановился в своем докладе Алексей Тюренков, заместитель директора ИТ, «Технониколь». Он начал с перечисления наиболее распространенных методологий проектирования хранилищ данных:

  • Data Vault 1.0 и Data Vault 2.0 (Ден Линстедт), расширение Data Vault 2.1 и DV-Attribute (Алексей Тюренков);
  • Anchor Model (Ланс Реннберк);
  • Activity Schema (Ахмед Элсамадиси) и Activity Schema+ (Николай Голов);
  • Dimensional Model Star Schema (Ральф Кимболл).

Алексей Тюренков, заместитель директора ИТ, «Технониколь»

В ходе доклада спикер рассмотрел разные аспекты применения методологий проектирования хранилищ в больших данных, остановился на методах решения проблем моделирования атрибутов в DV, рассказал о DV-Attribute — новом методе моделирования атрибутов в Data Vault и привел пример моделирования справочника «Клиент».

«
Атрибуты измерений — основные объекты в части историчности справочника, — отметил Алексей Тюренков. — Новый метод моделирования DV-Attribute позволяет перейти к реестру атрибутов для произвольного объекта: товара, клиента, магазина. Любое количество объектов может иметь любое количество атрибутов.
»

На проблематике управления информацией о продуктах во внутренних корпоративных системах и на витринах маркетплейсов построил свой доклад Игорь Татаренко, директор департамента «Мастер-дата», ТПХ «Русклимат». Компания является разработчиком и поставщиком комплексных климатических систем, владеет 18 производственными площадками, которые выпускают 22 миллиона изделий в год.

Игорь Татаренко, директор департамента «Мастер-дата», «Русклимат»

Игорь Татаренко подчеркнул, что сегодня продать товар сложно, если о нем нет информации в смартфоне потенциального покупателя. Поэтому необходимо предоставлять полный набор информации, удовлетворяющий требованиям любой федеральной торговой сети, маркетплейса и самого клиента.

«
Люди перестали выходить в интернет для поиска товаров, они ограничиваются использованием приложений в смартфоне, — жалуется он. — Поэтому, если производитель хочет продавать свои товары, информация о них должна быть доступна в смартфоне. И эта информация изначально должна соответствовать всем требованиям для размещения на маркетплейсах и во всех приложениях для смартфонов.
»

Спикер также рассказал о внутренней информационной системе компании, где собирается и постоянно обновляется информация о каждом товаре. В общем случае товар может иметь пять статусов: прототип продукта, «продажа запрещена», «готов к продаже», «вывод товара из оборота» и «архив». При этом необходимо постоянно осуществлять мониторинг ошибок, недостающих данных, вводить новые данные — и все это аккумулировать в одном подразделении компании.

Далее докладчик перешел к проблематике размещения и актуализации информации о товарах на маркетплейсах. Он напомнил, что за полноту и достоверность информации на торговых площадках отвечает производитель товара или его продавец, а не сама площадка.

Игорь Татаренко коснулся и последних изменений у «Яндекс.Маркета», по его оценке — негативных. Так, например, все продавцы отключены от мастер-карточек производителя и, таким образом, больше не получают обновления, полную и достоверную информацию.

Михаил Кацуба, аналитик данных, компания «Лента», и Максим Юрченко, ведущий DevOps-инженер, «Лента», выступили с совместным докладом. Они рассказали о миграции в 2024 году инфраструктуры больших данных из облака Azure в «Яндекс.Облако», а также на другие импортозамещающие компоненты, уделив особое внимание замене аналитической платформы DataBricks и внедрению нового BI-инструмента.

Михаил Кацуба, аналитик данных, «Лента»

В ходе миграции был выполнен переход:

  • с Azure Kubernetes Service (AKS) на Yandex Managed K8S — миграция прошла «без особых проблем»;
  • с Azure DevOps на Gitlab CI — был переписан CI/CD;
  • с СУБД Azure Synapse на базу данных Greenplum как основной движок для расчетов (после денормализации данных часть вычислений перенесли на Clickhouse).

«Data Bricks мы заменили на собственную разработку, созданную с использованием JupiterHub, Spark и K8S», — дополнил Максим Юрченко. Альтернативой Power BI стала облачная BI-платформа Yandex DataLens, на которую сейчас и осуществляется постепенный переход. Спикеры пояснили, что полностью зрелых решений на рынке не было, поэтому при выборе аналитической платформы ориентировались, в первую очередь, на потенциал.

Докладчики обозначили возможности платформы Yandex DataLens. Здесь есть генератор SQL-запросов и отрисовщик графиков; встроенный язык расчетов, схожий с Tableau, а также расчет на SQL с параметрами из отчета (QL-чарты).

Максим Юрченко, ведущий DevOps-инженер, «Лента»

Не обошлось и без технических ограничений. Так, например, отчет работает со скоростью базы данных, а легкий старт происходит только в том случае, если строк меньше, чем 300 млн. Кроме того, требуется специальное хранилище для горячих данных (Clickhouse). «DataLens, по сути, является генератором SQL-запросов и визуализатором, — отметил Михаил Кацуба. — Продукт активно развивается, и хотя имеет технические ограничения, у нас оптимистический взгляд на этот инструмент».

Дом на озере

Андрей Телюков, директор управления развития платформы больших данных, TData, рассказал об архитектуре и компонентах платформы для управления данными компании, а также обозначил основные вехи развития концепции корпоративного хранилищ данных.

Андрей Телюков, директор управления развития платформы больших данных, Tdata
«
Мы уделяем большое внимание безопасности данных, предоставляем инструменты наполнения данными, управления их качеством, — подчеркнул докладчик. — При этом для успешного решения задач управления данными всегда необходимо вовлекать бизнес, ведь именно бизнес способен помочь точно их сформулировать.
»

Платформа больших данных TData в общем случае включает в себя шесть слоев:

  • информационные продукты и сервисы — для аналитики и отчетности (RT.DataVision, RT.Trino);
  • транспорт и преобразование данных — набор продуктов для потоковой и пакетной обработки (RT.Streaming);
  • хранение данных — линейка продуктов хранения данных и аналитики (RT.DataLake, RT.S3, RT.WareHouse, RT.WideStore);
  • управление данными и НСИ — бизнес-глоссарий, единая точка доступа к данным и управление НСИ (RT.DataGovernance, RT,MDM);
  • управление и обслуживание — для развертывания, конфигурации и мониторинга компонентов (RT.ClusterManager);
  • источники данных.

Далее спикер перешел к эволюции хранилищ в мире, перечислил ее основные вехи:

  • хранилище данных (Data Warehouse): основа — реляционная СУБД, конец 80-начало 90-х годов;
  • озеро данных (Data Lake) — первое упоминание было в 2010 году, проекты на базе стека Hadoop или NoSQL, данные хранятся «как есть»;
  • «дом наозере» (Lake House) — 2021 год, на основе облачных технологий, все равно, что хранить.

В текущей ситуации Андрей Телюков выделил два наиболее вероятных варианта развития корпоративного хранилища данных. Это либо расширение хранилища данных за счет «озера данных» (DWH + Data Lake), либо построение «дома на озере». Первый вариант наиболее распространен, отметил спикер, но при этом необходимо поддерживать и развивать ETL-решения по перемещению данных между инструментами, что в современных условиях непросто. Второй вариант является более революционным и более удобным в использовании: есть compute-движок (Trino, Impala или Apache Spark), новые форматы хранения данных в Iceberg и «все работает из коробки». Но развитие новых движков требует новых навыков от инженеров, дополнил он.

В чем отличия на уровне архитектуры платформы управления данными (ПУД), построенной в соответствии с концепцией «дома на озере» (Lake House), от «озера данных» (Data Lake)?

Андрей Телюков: Компонентный состав решений для работы с данными от TData позволяет реализовать и ту, и другую архитектурную концепцию: от классических концепций озера или хранилища данных до новой концепции LakeHouse. Отличия будут только в выборе продуктов для решения необходимой задачи. Например, для построения LakeHouse мы можем использовать Spark из дистрибутива RT.DataLake и реализацию S3 от наших технологических партнеров, или облачный сервис от «Ростелеком-ЦОД».

Для построения DataLake используется продукт RT.DataLake, а для классического хранилища данных — RT.Warehouse. Все достаточно просто, подсказки скрываются даже в самих названиях.

На российском рынке уже есть компании, где внедрена и успешно работает ПУД типа «дом на озере»?

Андрей Телюков: Насколько мне известно, нет ни одного крупного внедрения в промышленную эксплуатацию. Ряд компаний тестируют новую концепцию в рамках отдельных бизнес-направлений. Также и мы экспериментируем с данным подходом на базе продуктов TData в рамках большого хранилища данных в «Ростелекоме». Кроме «Ростелекома» пилотирование проходит в нескольких крупных организациях, но результатами сможем поделиться только по итогу завершения тестирования.

К какому типу относится платформа управления данными Tdata?

Андрей Телюков: Платформа управления данными TData содержит компоненты для построения любой архитектуры, потому что «серебряной пули» не существует. И та, и другая архитектура обладает своими преимуществами и недостатками. Нужную архитектуру надо выбирать в зависимости от задачи.

Очевидно, что регуляторная отчетность в банке и запуск кампании в ритейле предъявляют разные требования к уровню критичности инфраструктуры. Также надо обращать внимание на наличие ресурсов по той или иной технологии внутри компании и на рынке. Поэтому платформа Tdata содержит решения для разных задач.

Каким образом потенциальному заказчику внедрения ПУД убедиться в экономической эффективности будущей платформы, в количественных показателях?

Андрей Телюков: Оценка экономической эффективности складывается из нескольких составляющих и зависит от зрелости текущих подходов к работе с данными у заказчика, и от потенциала извлечения ценности из данных. Инвестиции в платформу создают фундамент для монетизации данных за счет построения надежной и масштабируемой архитектуры. Оптимизация бизнес-процессов на основе данных приводит к прямому сокращению расходов. В конечном счете, лучшим показателем эффективности будет сопоставление удельной стоимости хранения данных (стоимость платформы, оборудования, ФОТ персонала) к финансовым результатам их использования (дополнительная выручка, экономия на расходах и др.)

Какие технологии искусственного интеллекта задействованы в платформе управления данными от Tdata?

Андрей Телюков: Применение ИИ в задачах, связанных с обработкой и аналитикой данных, в первую очередь, направлено на снижение стоимости их обработки, анализа и разметки. Поэтому мы активно внедряем технологии ИИ в продукт RT.DataGovernance для сокращения временных затрат на разметку данных и ведение глоссария.

Например, ИИ дает возможность определить персональные данные, привязать технические данные к бизнес-терминам. Чат-боты помогают простым пользователям быстро получать ответ на вопросы. Кроме того, мы работаем над применением технологий ИИ в задачах мониторинга и конфигурации параметров работы кластеров. В будущем мы видим большие перспективы для использования ИИ в платформе данных.

Павел Бабурин, руководитель направления поддержки продаж платформы данных Data Ocean.Nova, ГК GlowByte, также рассмотрел перспективность «дома на озере» в качестве новой концепции корпоративного хранилища данных.

Павел Бабурин, руководитель направления поддержки продаж платформы данных Data Ocean.Nova, GlowByte

Для начала он обозначил сомнения тех, кто размышляет о новой концепции в качестве альтернативы текущей. Кажется, что нет четкой границы между задачами озера и хранилища данных, поэтому незачем менять подходы в проектировании. Для расчетов в режиме реального времени нет ничего лучше OLTP базы данных. Основные вычислительные движки вышли из проекта Hadoop, а значит, и назначение осталось прежним, с теми же ограничениями. При масштабировании объектного хранилища начинаются проблемы с производительностью. Наконец, не все могут себе позволить «дом на озере» — он только для избранных, с бюджетом.

Спикер перечислил преимущества строительства «дома на озере» на платформе данных Data.Ocean.Nova:

  • поддержка команды профессионалов;
  • платформа — готовый продукт, а не сборка компонентов открытого кода;
  • лучшее сочетание эффективности и стоимости;
  • единая среда для всех задач: холодное хранение данных, корпоративное хранилище данных, оперативное (real-time/ODS) хранилище, ML-фабрика данных, Data Mesh;
  • соответствие современным тенденциям;
  • любой вариант установки: на площадке заказчика, облачное решение, гибрид (решение для управления данными с возможностью эффективной модели pay-as-you-go).

Павел Бабурин отметил, что вендор готов к партнерству в части развития платформы.

«
Наша платформа — готовый продукт, за каждый компонент которого мы несем ответственность как вендор, — говорит он. — Да, решение новое, однако «новое» не означает «плохое». В современных условиях нужно быть готовым к изменениям не только в части технологий, но и в части подходов к управлению процессами подготовки данных. Любое противопоставление технологий и подходов можно проверить пилотным проектом, к которому мы всегда готовы. У нас уже есть клиенты в самых разных отраслях, где платформа работает в промышленной эксплуатации, и мы готовы дать референсы.
»

Искусственный интеллект как «новое электричество»

Иван Будник, директор департамента электронной коммерции, «Гулливер Групп», представил опыт применения ИИ в различных аспектах поддержки и развития индустрии продажи одежды, моды и предметов роскоши. По оценке McKinsey, в последующие 3-5 лет в обозначенных сегментах торговой индустрии можно увеличить операционную прибыль за счет искусственного интеллекта, как минимум, на 275 млрд долларов.

Иван Будник, директор департамента электронной коммерции, «Гулливер Групп»

Иван Будник пояснил, что 62% компаний уже работают с технологиями ИИ. За счет их внедрения можно оптимизировать не только маркетинг, но также и такие области, как дизайн и производство одежды. Спикер привел примеры использования ИИ в бизнесе «Гулливер Групп». Его используют для разработки дизайна подарочных карт, на этапах исследования рынка, для создания технического пакета, для эскизов и упаковки, для обтравки фотографий, для имиджевых фотосессий, создания изображений для сайта и в других успешных кейсах.

В стадии разработки находится создание виртуального стилиста, когда бот делает посетителям релевантные предложения с переходами на сайт, где можно выбрать подходящую одежду.

«
Искусственный интеллект предоставляет большие возможности уже сегодня. Его не так сложно внедрять, но катастрофически не хватает специалистов в этой области, — подытожил Иван Будник. — Надо развивать в коллективах такую внутреннюю компетенцию — это однозначно пригодится.
»

Алексей Бондаренко, вице-президент, начальник департамента управления данными, «Газпромбанк», представил вниманию участников мероприятия доклад по общей проблематике четвертой промышленной революции, одной из ключевых технологий которой является искусственный интеллект.

Алексей Бондаренко, вице-президент, начальник департамента управления данными, «Газпромбанк»

В начале доклада Алексей Бондаренко спрогнозировал, что в ходе четвертой промышленной революции произойдут следующие изменения. Поменяется структура занятости населения. Процентные ставки повысятся, социальное неравенство в обществе тоже возрастет. Для тех, кто занимается рутинным трудом, работа станет привилегией. Инвестиции будут производиться в основные средства, каковыми станут роботы.

Он выделил отличия цифровых активов от материальных. Цифру можно воспроизводить практически бесконечно и с идеальной точностью. Ее можно передавать от одного человека другому почти моментально и без издержек. Дополнительные единицы цифровых активов могут быть произведены практически с нулевыми тратами.

Искусственный интеллект спикер определил как способность технической системы имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных практически значимых задач обработки данных результаты, сопоставимые с результатами интеллектуальной деятельности человека.

«
Любая модель, сколь она ни сложна, — всего лишь алгоритм, сформированный на основе тех данных, на которых модель была обучена, — напомнил Алексей Бондаренко. — Любое решение, базирующееся на применении искусственного интеллекта, хорошо работает ровно настолько, насколько хорошо разработаны алгоритмы и качественны данные.
»

Докладчик представил цикл работы с данными для ИИ (сбор данных, подготовка, создание модели, ее запуск), ключевые задачи управления данными для создания качественных моделей (доступность данных, их высокое качество, каталогизация), и конкретизировал эти тезисы на уровне архитектуры платформы данных, внедренной в «Газпромбанке».

Алексей Бондаренко подчеркнул важность продуктового мышления, предполагающего доменный подход, создание дата-продуктов, супермаркета сервисов для обработки данных. С целью обеспечения качества в платформе реализованы централизованный контроль качества данных, сервисы самообслуживания для проверки качества, автоматизированное формирование контролей качества данных, детальные управленческие дашборды качества данных, регистрация инцидентов. Каталог данных позволяет организовать взаимодействие всех пользователей данных.

Михаил Граденко, директор департамента технологий искусственного интеллекта, «Русал», поделился практикой использования в промышленности прикладного искусственного интеллекта (Narrow AI) и выразил уверенность в том, что технологии ИИ получат такое же повсеместное распространение, как когда-то электричество.

Михаил Граденко, директор департамента технологий искусственного интеллекта, «Русал»
«
Необходимо разделять сильный искусственный интеллект (General AI), способный мыслить и действовать как человек, и прикладной (Narrow AI), ориентированный на решение конкретных задач, — пояснил спикер. — По линии сильного ИИ пока больше шумихи, чем конкретики, а вот по части прикладного интеллекта уже много цифровых продуктов, способных принести в крупных промышленных компаниях многомиллионные эффекты. Это уже сегодняшние реалии.
»

Обученные модели ИИ быстро деградируют и становятся бесполезны, если не работает система эксплуатации, постоянно снабжающая их новыми данными и занимающаяся переобучением модели. Михаил Граденко рассказал о внедренной в «Русале» корпоративной шине данных (КШД), о ее архитектуре, месте ИИ-продуктов, о потоках данных. Так, например, КШД позволяет обмениваться данными между производственными площадками и корпоративным контуром, а также осуществлять мониторинг ИИ-моделей, развернутых на платформе.

Михаил Граденко перечислил обязательные условия успешного внедрения технологий искусственного интеллекта на производственной площадке:

  • широкий сетевой канал между производственной площадкой и корпоративным контуром;
  • продвинутые MES-систем и АСУ ТП;
  • наличие интеграционного модуля к корпоративной шине данных;
  • наличие на производственной площадке собственного ЦОДа с возможностью запуска и масштабирования ML/CV продуктов.

Важным элементом КШД «Русала» является DSML-платформа собственной разработки, состоящая из трех элементов: инструментов (инфраструктура, среда для разработки и эксплуатации ИИ-продуктов), технического руководства и методологии, административных регламентов и процессов. О каждом из этих элементов спикер рассказал подробнее, подчеркнув, что платформа функционирует на внутреннем корпоративном облаке.

В завершение Михаил Граденко отметил, что не единым искусственным интеллектом живет работа с данными. Наблюдается конвергенция разных технологий по извлечению из них ценности (искусственный интеллект, бизнес-аналитика и др.), причем появляются соответствующие комплексные инструменты.

ИИ по стандарту

Дмитрий Жихарев, управляющий директор лаборатории искусственного интеллекта, «Россельхозбанк», предоставил рекомендации по подготовке нормативных документов, касающихся использования и развития технологий искусственного интеллекта в компании.

Дмитрий Жихарев, управляющий директор лаборатории искусственного интеллекта, «Россельхозбанк»

Спикер обозначил четыре основных документа, важных в контексте развития ИИ. Нужна стратегия цифровой трансформации, ИТ-стратегия, положение о подразделении и порядок управления жизненным циклом моделей ИИ. Дмитрий Жихарев прокомментировал важность каждого из документов в плане развития ИИ в компании.

«
Первый пункт, который ни в коем случае нельзя пропускать: необходимо вписать развитие технологий искусственного интеллекта в стратегию цифровой трансформации компании как одно из ключевых направлений, — подчеркнул он.
»

Подробнее он остановился на порядке управления жизненным циклом ИИ-моделей, дав основные определения («модель», «набор данных» и др.), а также обозначил роли специалистов управлении, этапы жизненного цикла (от идеи до мониторинга и валидации). В завершение спикер напомнил, что до конца 2026 года Росстандарт планирует разработать более 200 стандартов по искусственному интеллекту.

Максим Васильев, начальник отдела архитектуры данных центра стратегии и инициатив, «Росгосстрах», посвятил доклад преодолению административных барьеров и ментальных заблуждений при внедрении как технологий искусственного интеллекта, так и облачных технологий.

Максим Васильев, начальник отдела архитектуры данных центра стратегии и инициатив, «Росгосстрах»

Для начала он напомнил области использования ИИ и облаков. Это оптимизация и автоматизация бизнес-процессов, аналитика больших данных, повышение гибкости и масштабируемости. Однако многие компании принимать на себя риски использования ИИ и облаков еще не готовы. Докладчик привел аргументы против распространенных заблуждений относительно больших языковых моделей в облаке, привел примеры из практики по обезличиванию персональных данных.

«
Если мы не используем инструменты на базе технологий искусственного интеллекта и облачных технологий, то отказываемся от большого конкурентного преимущества, — уверен Максим Васильев.
»

Основные выводы, озвученные спикером по итогам реализации проектов, выглядят следующим образом. Безопасность данных и соответствие законам — это приоритет. Методы деперсонализации и обезличивания оказались критически важны для обеспечения безопасной передачи данных и соблюдения требований регуляторов (европейского стандарта GDPR и российского закона ФЗ №152). Есть сложность балансирования между полезностью данных и их обезличиванием: чем глубже данные обезличиваются, тем меньше полезной аналитики можно извлечь. Именно поэтому важно найти баланс между сохранением полезных данных и их анонимностью.

Нужно сделать упора на автоматизацию процессов защиты данных. Внедрение систем маркирования и шифрования данных требует автоматизации для эффективного масштабирования, ручное же управление метками не подходит для больших объемов данных. Проекты показали необходимость заранее подготовленной инфраструктуры: шифрование, контроль доступа и аудит операций — это обязательные элементы для успешного использования облаков и ИИ. Правильная деперсонализация и маркирование данных помогают компаниям избегать юридических проблем, позволяя безопасно работать с ИИ и облачными сервисами в условиях строгих ИБ-протоколов.

Алла Сапожникова, руководитель отдела информационных технологий и телемедицины, ФГБНУ «Научный Центр Неврологии», рассказала об интеграции искусственного интеллекта в бизнес-процессы федерального бюджетного научного учреждения.

Алла Сапожникова, руководитель отдела информационных технологий и телемедицины, ФГБНУ «Научный Центр Неврологии»

Докладчица обозначила некоторые направления, по которым сейчас ведутся работы по использованию искусственного интеллекта в учреждении:

  • мультимодальная модель ИИ — применение в качестве продвинутого
  • инструмента поиска информации;
  • системы голосового ввода — диктовка текстов для медицинских документов, распознавание и занесение в карту пациента;
  • компьютерное зрение — для анализа медицинских изображений, автоматические измерения и автоматическая сортировка;
  • системы обработки естественного языка — проверка историй болезни, карт и прочих документов в медицинской информационной системе;
  • создание «Интерфейса мозг-компьютер» (ИМК) для распознавания нервных импульсов, для лечения и восстановления.

«
Наши три ключевых домена — наука, образование, медицина — генерируют нам очень большое количество данных. Все вопросы их хранения, управления, анализа стоят именно перед ИТ-службой, — делится Алла Сапожникова. — Мы отвечаем на эти вопросы ежедневно, в том числе, с использованием искусственного интеллекта. Кроме того, искусственный интеллект — это очень важный инструмент разгрузки врачей от рутинных операций.
»

Алла Сапожникова назвала важным ограничением в использовании генеративных моделей в медицине этический момент — недопустимость попадания диагноза в 5-7% ошибок. Она обозначила области, где этого ограничения нет, и где искусственный интеллект уже используется: в колл-центре, при решении административных задач, а также в профессиональных областях при амбулаторном приеме, для анализа медицинских изображений (в качестве рекомендации) и ряде других задач.

Прототипы и бэкап

Сергей Буровцев, технический директор, «Концепт Разработка», посвятил свое выступление вопросам безопасного резервирования открытой СУБД Greenplum, что особенно актуально после того, как эта база данных перестала быть открытой. Первым делом он перечислил общие проблемы при резервировании данных в крупных компаниях, независимо от того, какая СУБД там работает. Тут обычно используют большое и высоконагруженное хранилище. Количество и продолжительность технических окон ограничено, есть необходимость разнесения во времени резервирования с ETL-процессами.

Сергей Буровцев, технический директор, «Концепт Разработка»

Специфическими для СУБД GreenPlum являются следующие две проблемы. Для восстановления нужен кластер с той же логической структурой (количество сегментов, доступное дисковое пространство). А бесплатное решение из коробки малопригодно для промышленного использования.

«Данные надо резервировать не в том же кластере, а в другой локации, — посоветовал Сергей Буровцев.— Ключ к успеху — опытная команда внедрения, способная реализовать необходимую функциональность, которую «из коробки» не получить». Кроме того, он перечислил возможности идеального инструмента бэкапирования. По его мнению, там нужны: гибкие настройки;

  • восстановление вплоть до произвольной точки во времени;
  • возможность восстановления из копии отдельных объектов;
  • реализация аварийного восстановления (Disaster Recovery);
  • автоматическая обработка ошибок;
  • информация о результатах по электронной почте;
  • хранениежурналов процессов копирования.

Спикер провел сравнение двух ключевых технологий: с помощью штатной утилиты gpBackup и посредством обработки потоков логов, то есть с использованием WAL. Одно из преимуществ gpBackup — возможность частичного восстановления данных, тогда как обработка логов предполагает полное пересоздание кластера, отметил он, а недостаток — потребность в «окне тишины». Сергей Буровцев дал еще несколько советов, в их числе: определить целевые требования к резервированию, провести ручное резервирование системы, замерив скорость подготовки копии и время необходимого технологического окна. Также он порекомендовал собирать информацию о созданных резервных копиях и журналах копирования в отдельную базу данных.

Об использовании аналитической лоукод-платформы PolyAnalyst для решения задач прототипирования рассказал Дмитрий Гольцов, заместитель генерального директора по коммерческой деятельности, «Мегапьютер Интеллидженс». Он говорил о назначении прототипирования, а также о преимуществах лоукод-подхода в визуальном моделировании, о единой среде разработки, низком пороге входа и наличии готового набора функций.

Дмитрий Гольцов, заместитель генерального директора по коммерческой деятельности, «Мегапьютер Интеллидженс»
«
Прежде, чем запустить продукт в промышленную эксплуатацию, его необходимо защитить и доказать экономическую целесообразность, — напомнил Дмитрий Гольцов. — Вносить изменения в прототип в десятки раз дешевле, чем в работающую систему. Самые большие риски — это большие временные затраты, высокая вероятность продолжения использования продукта, который не признан неудачным, хотя уже является таковым.
»

Докладчик осветил широкие возможности сквозной аналитической лоукод-платформы PolyAnalyst для быстрого создания прототипов систем. Спикер подчеркнул, что платформа позволяет без программирования выполнять все этапы работы с данными:

  • подключение к источникам, загрузка;
  • трансформирование, объединение, очистка;
  • машинное обучение, текстовый анализ;
  • визуализация, отчетность, экспорт.

При помощи инструментария платформы можно решать внутрикорпоративные аналитические задачи (операционная аналитика, экономический анализ, планирование, бюджетирование, план-фактный анализ). Она позволяет анализировать документацию, внешние источники (автоматизация извлечения информации из документов, анализ записей колл-центров, обращений, жалоб, анализ открытых источников).

В платформе реализовано распознавание текста, речи, произведена интеграция с большими языковыми моделями. Здесь имеется собственная языковая модель MegaGPT 1.6, которую возможно обучать на данных заказчика. В качестве подтверждения широких возможностей платформы Дмитрий Гольцов привел кейс внедрения в Счетной палате РФ, где платформа используется для быстрой разработки аналитических решений (несколько сотен пользователей, более 100 самостоятельно разработанных проектов).

В перерыве и по завершении конференции участники общались в неформальной обстановке, а также имели возможность ознакомиться с решениями и услугами ИТ-поставщиков на стендах, развернутых в холле мероприятия.

Информация о партнерах

TData — российский вендор высокопроизводительных и безопасных решений для построения хранилищ данных, аналитики и автоматизации процессов по управлению данными с использованием искусственного интеллекта.

Решения компании используют крупнейшие компании России и СНГ, такие как Ростелеком, Т2, Татнефть, Евраз, Международный Аэропорт Шереметьево, F+, Миранда медиа и другие.

Сайт: https://tdata.tech/

E-mail: sales@tdata.tech

Наша специализация - проекты в области управления и обработки данных, внедрения высоконагруженных систем и заказной разработки программного обеспечения с использованием современных методик и процессов разработки.

Наша команда - профессионалы со стажем в ИТ индустрии свыше 15 лет; несколько десятков специалистов с опытом внедрения аналитических решений от 5 до 10 лет с технологической экспертизой в областях DWH, BI, Machine Learning, Big Data и использованием современных ИТ- инструментов ведущих вендоров (SAS, Teradata, Oracle, Tableau, Microsoft), a также open-source продуктов.

Наше кредо – гибкий подход и ориентация на плотное взаимодействие с заказчиком для реализации удобных и надежных решений.

Data Sapience (ООО `Дата Сапиенс`) – российский поставщик собственного программного обеспечения, специализирующийся на разработке аналитических инструментов для среднего и крупного бизнеса. Компания развивает четыре линейки продуктов: CM Ocean, Kolmogorov AI, Talys Ocean и Data Ocean. ПО позволяет решать бизнес-задачи в области целевого маркетинга (доставка персонализированных коммуникаций), MLOps и управления жизненным циклом ML-моделей, управления рисками в сферах принятия решений (кредитный конвейер, предстраховые проверки и урегулирование убытков, скоринг контрагентов), противодействия отмыванию доходов (ПОД/ФТ) и мошенничеству (антифрод). А также задачи в области обработки и управления данными: управление данными в платформе поколения lakehouse, администрирование кластерами СУБД, управление справочными данными (RDM), мастер-данными (MDM), качеством данных (DQ), техническими данными и бизнес-глоссарий (EMM), потоковая обработка данных, загрузка данных в аналитическую среду. Разработкой и внедрением ПО занимается команда с более чем 15-летним опытом работы в бизнес-консалтинге. В числе сотрудников Data Sapience – специалисты из крупнейших профильных российских компаний, а также ранее работавшие в российских представительствах мировых вендоров.

В портфеле компании – проекты в различных индустриях: финансовом секторе, телекоме, ритейле, e-commerce, производстве.

В числе клиентов Data Sapience – Росбанк, Газпромбанк, Альфа-банк, Россельхозбанк, Ренессанс страхование, Мосбиржа, Узбекинвест, EVRAZ, и др.

Дата Сапиенс является резидентом `Сколково`. Продукты компании включены в Реестр российского ПО.

Архив конференций «Big Data & AI Day»