Платформа PolyAnalyst помогла структурировать данные в системе учета медицинской электронной техники
Заказчики: Ресурсный центр универсального дизайна и реабилитационных технологий (РЦУД и РТ) ФГАУ Москва; Фармацевтика, медицина, здравоохранение Подрядчики: Мегапьютер Интелидженс (Megaputer Intelligence) Продукт: PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстовДата проекта: 2022/02 — 2022/09
|
Технология: Data Mining
Технология: Речевые технологии
|
Ещё до начала реализации проекта по разработке автоматизированной системы управления данными об изделиях медицинской электронной техники мы приняли решение о работе только с российскими разработчиками ПО. Для реализации аналитического модуля системы был использован продукт PolyAnalyst компании «Мегапьютер Интеллидженс». Важным для нас являлось решение вопроса неструктурированности данных в различных источниках и преобразование различных форматов в единый вид, пригодный для многоступенчатого анализа. Мы убедились, что система PolyAnalyst позволяет решить эти задачи и работать с большими объемами как структурированных данных, так и неструктурированных текстовых массивов. Также для нас было важно получить набор настраиваемых и масштабируемых дашбордов для наглядного представления результатов и аналитической работы. Разработчики справились и с этой задачей. В результате использования этого аналитического модуля мы получили цифровую платформу, которая может стать основой для создания системы мониторинга и принятия эффективных управленческих решений, - Виталий Викторович Заяц, директор ФГАУ «РЦУД и РТ» |
Для реализации представленных задач разработчиками аналитического модуля применялся широкий набор инструментов для обработки данных, доступный в системе PolyAnalyst.
Для предобработки данных применялся встроенный в PolyAnalyst cобственный модуль оптического распознавания символов OCR, который переводил отсканированные изображений документов в текстовый формат. Интеллектуальные алгоритмы системы провели автоматическое извлечение данных о медицинских изделиях и участниках рынка отрасли. Для наглядного представления результатов анализа применялся имеющийся в PolyAnalyst конструктор для построения интерактивных отчетов.
Формат анализируемых данных представлял серьезную сложностью при выполнении проекта. В частности, во время решения задачи оценки процедур закупки, существенная часть данных, подаваемых на вход системы, имела неструктурированный текстовый вид. Эти данные представляются отдельными документами различных «офисных» форматов, а также в виде отсканированных копий документов. Интеллектуальные инструменты структурирования информации PolyAnalyst позволили автоматически извлекать из текстов контрактов необходимую информацию и вносить ее в единую сводную таблицу параметров. Также алгоритмы системы самостоятельно обнаруживают и в ряде случаев автоматически исправляют ошибки во входных данных, то есть проводит нормализацию. В завершение этого процесса система информирует пользователя об обнаруженных ошибках и произведенных исправлениях.
По итогам тестирования аналитический модуль продемонстрировал возможность решения всех поставленных задач. Работоспособность и устойчивость системы была проверена на данных объемом свыше 1 Терабайта.
Для наглядного представления данных и проведения визуального анализа был построен интерактивный отчет. Он позволяет вести анализ свыше ста показателей отрасли медицинского оборудования. Таким образом формируется полная информационная картина о запросе на оборудование и возможностях его поставки, как от местных производителей, так и извне.
Дальнейшее развитие модуля предусматривает масштабное увеличение количества и типов источников данных, а также применения интеллектуальных алгоритмов машинного обучения для формирования прогнозов развития рынка медицинских изделий.