В рекордные сроки: Российские средства интеллектуальной обработки документов на 100% готовы к импортозамещению
Наукоемкая сфера интеллектуальной обработки информации, как и все сегменты ИТ, в течение 2022 года претерпела изменения. Однако после ухода с рынка международных вендоров — Kofax, Adobe, ABBYY — позиции лидирующих поставщиков не остались вакантными. Более того, появились новые имена, причем с портфелем передовых технологий мирового уровня. Пример — российская компания Content AI.
Санкционные потрясения прошлого года привели к тому, что российский рынок покинули не только западные вендоры. Среди ушедших и те, которые изначально были отечественными, но сделали ставку на международное развитие.
Системное обновление
Компания ABBYY еще в январе 2022 года удалила из реестра отечественного ПО Минцифры РФ два десятка своих продуктов, включая редактор ABBYY FineReader PDF и платформу для интеллектуальной обработки информации ABBYY FlexiCapture. В апреле 2022 года вендор ушел из России окончательно.
В это же время команда менеджмента бывшего российского офиса ABBYY создала независимую бизнес-структуру — компанию Content AI. Ей были переданы функции продаж на территории России и технической поддержки текущих российских клиентов ABBYY. При этом приобретенные ранее лицензии на продукты остались действительными как для корпоративных, так и для частных пользователей.
Как технологический наследник ABBYY в России компания Content AI сохранила огромный опыт разработки и внедрения продуктов для интеллектуальной обработки информации практически во всех отраслях экономики, что позволило нам получить статус лидера в этом сегменте ИТ-рынка и продолжить технологическое развитие теперь уже с прицелом именно на потребности российских пользователей, — подчеркивает Светлана Дергачева, генеральный директор Content AI. |
Более того, команда Content AI (а это свыше 100 человек) на 85% состоит из бывших сотрудников российского офиса ABBYY, главным образом разработчиков и инженеров. Прошлый год компания посвятила выводу на рынок решений, созданных новой командой на базе лицензированных технологий ABBYY, а весной 2023 года внесла в реестр российского ПО все свои флагманские продукты, которые теперь доступны для всех, в том числе государственных заказчиков в России.
Партнерская сеть: сохранить и нарастить
Технологии, которые Content AI использует в своих продуктах, созданы в России и развивались здесь с конца 80-х годов. Именно они положили начало формированию отечественной отрасли распознавания данных и интеллектуальной обработки информации и первыми стали внедряться в реальный бизнес, — рассказывает Светлана Дергачева. — По нашим оценкам, до своего ухода ABBYY занимала до 80% рынка в России. |
Неудивительно, что при таких масштабах сеть партнеров вендора составляла свыше 200 компаний, среди которых ведущие интеграторы, реселлеры, технологические партнеры и дистрибьюторы на территории России и стран СНГ. С 2022 года отношения с ними продолжает развивать уже Content AI.
Например, компания ЭОС, ведущий российский разработчик систем управления документооборотом, электронными и бумажными архивами, договорилась с Content AI о развитии технологического партнерства. Надежда Шалимова, руководитель управления маркетинга компании ЭОС, уточняет: «Интеллектуальное распознавание текстов при потоковом вводе больших объемов документов сегодня является одним из базовых требований наших заказчиков в крупных СЭД/ECM-проектах, как в госструктурах, так и бизнес-сегменте».
ЭОС официально перешла на использование в своих решениях российского продукта ContentReader Engine — многофункционального OCR SDK, предназначенного для встраивания в приложения функций интеллектуального распознавания информации. Технологии ContentReader Engine применяются в модуле потокового ввода данных в СЭД «ДЕЛО» и обеспечивают распознавание печатного текста, штрих-кодов, меток, машиночитаемых зон и визитных карточек.
В рамках партнерских отношений с компанией «Юниксофт», специализирующейся на реализации проектов автоматизации делопроизводства и электронного документооборота, Content AI предоставляет технологические решения и комплексные продукты для распознавания, классификации и обработки данных всех типов документов, а также автоматизации их ввода во внутренние информационные системы заказчиков.
В сети ресторанов быстрого питания «БУРГЕР РУС» уже запущен пилотный проект по автоматизации распознавания первичных документов, поступающих на бумажных носителях из ресторанов сети. Для «пилота» выбраны товарно-транспортные накладные: из документов автоматически извлекаются нужные реквизиты и передаются в СЭД TESSA и ERP-систему «БУРГЕР РУС». На следующем этапе предполагается подключить к обработке кадровую документацию.
К реализации совместных проектов с Content AI приступила и компания IBS. В частности, решения для интеллектуальной обработки информации используются для трансформации закупок в нефтегазовой компании, а также для автоматизации ввода данных из первичных бухгалтерских документов в крупной аптечной сети.
По откликам заказчиков, им удалось добиться значительной оптимизации процессов работы с документами: увеличения скорости ввода данных в информационные системы в 3-10 раз, сокращения ошибок при вводе — не менее чем в три раза, оптимизации общих затрат на обработку документов — более чем на 50%.
В русле импортозамещения
С точки зрения рыночных перспектив интеллектуальная обработка документов — это быстро развивающаяся сфера технологий. Выступая в марте на мероприятии НП РУССОФТ «ИТ-индустрия в период перемен: что нас ждет в 2023 году?», советник генерального директора Content AI Олег Сажин отметил важный тренд, наблюдаемый на рынке, — запрос бизнеса на повышение «уровня интеллектуальности» ИТ-продуктов.
Действительно, сегодня такие решения позволяют не только на базовом уровне автоматизировать рутинную обработку документов, но и существенно оптимизировать целый ряд бизнес-процессов, высвободив ресурсы компании. Причем эти эффекты характерны для всех отраслей, где ведется работа с большими объемами входящих и исходящих документов: финансовый сектор, ритейл, нефтегаз, энергетика, металлургия, госорганы всех уровней и т.д. При этом финансы и ритейл — представители самых технологически развитых отраслей экономики — являются настоящими драйверами этого рынка.
Очевидно, что в этих условиях ключевым приоритетом Content AI в 2022 году стало замещение ушедших с рынка продуктов.
Очень важно, чтобы клиенты в России смогли эффективно продолжать работу. Задача требует больших ресурсов, ведь нужно действовать быстро, — подчеркивает Светлана Дергачева. |
Первоочередной целью стала адаптация софта для поддержки российских операционных систем на базе Linux, обеспечения их совместимости с другими отечественными ИТ-продуктами и бесшовного внедрения в существующую ИТ-среду заказчиков. В прошлом году компания модифицировала ряд продуктов ABBYY и выпустила на российский рынок собственное программное обеспечение. Первым таким событием стал релиз решения для создания корпоративного поисковика на базе Linux — Content AI Intelligent Search. Теперь российские клиенты могут использовать продукт в своих информационных системах на базе отечественных ОС: Alt Linux, Astra Linux, Red OS и других.
До конца 2022 года компания выпустила свои основные продукты — ContentCapture, ContentReader PDF, ContentReader Engine. В первой половине 2023 года все они были последовательно включены в реестр отечественного ПО.
Лучшая версия себя: продукты Content AI для российского рынка
Конкурентная обстановка в данном секторе рынка выглядит неоднозначно, рассказывают в компании Content AI. С одной стороны, представлено немало продуктов, решающих несложные задачи: чтение карт, паспортов, QR-кодов и т.д. С другой стороны, есть явно усиливающийся запрос на более интеллектуальные комплексные решения, способные не только распознать данные, но и обработать их по определенным сложным сценариям. В этой нише конкуренция гораздо слабее, и именно на этом фокусирует свое внимание Content AI.
Ключевые технологические компетенции компании связаны с распознаванием данных в любых типах документов (технологии OCR, ICR, OMR), извлечением информации, обработкой неструктурированного контента (NLP), пониманием и анализом текстов на естественном языке.
Content AI удалось сохранить передовые технологии ABBYY и оперативно выпустить свой софт для интеллектуальной обработки информации, — отмечает Светлана Дергачева. |
Таким образом, текущая линейка продуктов Content AI позволяет эффективно заместить популярные решения, ушедшие с российского рынка:
|
Следует отметить, что продукты Content AI не только адаптированы к российским условиям в русле импортозамещения, но и доработаны с учетом актуальных потребностей бизнеса.
Так, например, в новой версии Content AI Intelligent Search, готовом решении для создания корпоративного поискового портала, значительно расширен список источников, по которым обеспечивается поиск данных и навигация. Ранее этот список включал сетевые папки, портал MS Sharepoint и wiki-систему Confluence. Теперь поддерживается интеграция с трекером задач Jira, каталогом пользователей на базе Active Directory и СУБД (поиск по содержимому MS SQL Server, MySQL и PostgreSQL). Также появились дополнительные возможности аналитики данных. Теперь результаты интеллектуального поиска могут быть использованы для оценки и квалификации различных параметров и состояний. Например, на основе данных из каталога пользователей можно построить графический отчет для выявления отделов с максимальной текучкой кадров и вести мониторинг динамики изменений.
Для оперативной навигации к актуальным источникам информации появились гиперссылки, которые ведут к соответствующему разделу корпоративной wiki-системы, описанию продуктов и технологий, внутренним и внешним сайтам. А еще можно оформить подписку на определенный поисковый запрос — тогда система сама будет информировать пользователя о поступлении новых документов. Подобным образом можно подписаться на обновления какого-либо важного документа и получать уведомления, вне зависимости от того, с каким источником связаны изменения.
ContentCapture — универсальный инструмент для интеллектуальной обработки документов
Один из флагманских продуктов Content AI — ContentCapture, универсальная платформа для интеллектуальной обработки информации. Решение, призванное заменить продукт ABBYY FlexiCapture, включено в дорожную карту развития и поддержки нового общесистемного программного обеспечения (НОПО).
Продукт Content AI отнесен к разряду общесистемного ПО, поскольку он комплексно решает целый ряд задач, связанных с обработкой бухгалтерских, финансовых, юридических документов как для крупного, так и для среднего бизнеса.
ContentCapture обрабатывает в едином потоке бумажные и электронные документы любых типов: отсканированные бумаги, фотографии, тексты, PDF-файлы, полученные из разных источников — электронных писем, FTP, «горячих папок», мобильных устройств, МФУ, сетевых сканеров. Причем разные форматы документов можно обрабатывать одновременно.
Система способна классифицировать любые типы входящих документов, как по внешнему виду и взаимному расположению элементов, так и по содержанию, извлекаемому из текста. Методы классификации по изображению документов основаны на машинном обучении (сверточных нейронных сетях), а текстовая классификация опирается на статистический и семантический анализ.
ContentCapture комбинирует результаты применения различных технологий классификации и автоматически подбирает лучший алгоритм сортировки, — отмечает Светлана Дергачева. |
Ручная обработка документов | Потоковый ввод документов |
● сортировка потока документов, похожих по внешнему виду ● ввод данных из документов занимает много времени ● ошибки при перепечатывании информации | ● автоматическое определение типа документа ● извлечение данных в 3-10 раз быстрее ● в 5-10 раз меньше ошибок в данных |
Интеллектуальная классификация позволяет значительно сократить время, требуемое для обработки данных. Этому способствуют и механизмы автообучения системы: опираясь на результаты работы верификаторов, она сама учится извлекать данные из документов.
Решение ContentCapture предназначено для высокопроизводительной потоковой обработки документов, причем производительность легко масштабировать, если в компании меняется интенсивность поступления документов. В целом, платформа способна обрабатывать до трех миллионов страниц в день, а инструменты централизованной конфигурации и настройки дают возможность контролировать работу всех станций и операторов в распределенной инфраструктуре.
Ниже — наиболее популярные сценарии использования ContentCapture:
- обработка бухгалтерских и финансовых документов: проверка полноты комплекта, сверка наименований номенклатур со справочниками организации, извлечение необходимых атрибутов, междокументные проверки (наличие подписей, верность расчетов и др.)
- обработка кадровых документов: распознавание данных, извлечение необходимых атрибутов
- юридическая и информационно-аналитическая база: классификация, извлечение атрибутов, сохранение документов в PDF формате
- автоматизация закупочной деятельности: проверка соответствия документов заявки конкурсному ТЗ, проверка полноты комплекта, извлечение значимых атрибутов для подготовки заключения об анализе заявок
Например, оператор федеральной электронной площадки АО «ТЭК Торг» автоматизировал обработку закупочной документации с помощью платформы ContentCapture. Система еще на этапе рассмотрения заявок автоматически проверяет комплектность документов, проводит проверку их подлинности, извлекает значимые данные — на обработку одного документа уходит менее минуты. С помощью ContentCapture компания обрабатывает около 500 тыс. страниц документов в год, а у сотрудников уходит в десятки раз меньше времени, чем раньше, на проверку закупочной документации.
Решение ContentCapture способно гибко интегрировать потоковый ввод документов в разнообразные рабочие процессы компании. Так, поддерживается интеграция с решениями класса ECM, CRM, RPA, АБС и т. д.
В компании Content AI рассказывают, что работа над совершенствованием платформы продолжается. В ближайших планах разработчиков — распознавание в документах элементов русскоязычного рукописного текста.
Это в разы расширит сценарии использования ContentCapture, — уточняет Светлана Дергачева. Продукт с данной функциональностью выйдет на рынок уже в текущем году. |
Также идет работа над дальнейшим увеличением скорости автоматизированной обработки документов и повышением эффективности работы комплекса на отечественных операционных системах на базе Linux.
ContentReader PDF — для любых задач с PDF-файлами и бумажными документами
ContentReader PDF сохранил все возможности ABBYY FineReader PDF и умеет распознавать, редактировать и конвертировать PDF-документы в различные форматы. В отличие от зарубежного аналога, он зарегистрирован в реестре отечественного ПО и может использоваться в операционных системах на базе Linux. В частности, в апреле ContentReader PDF получил сертификаты совместимости с операционными системами РЕД ОС и «Атлант». На финальной стадии находится тестирование на совместимость с Astra Linux.
Программа позволяет офисным сотрудникам работать с PDF так же просто и удобно, как с привычными текстовыми документами, — рассказывает Светлана Дергачева. — Редактор упрощает оцифровку, поиск, редактирование, обмен файлами и совместную работу над любыми типами документов. |
С помощью ContentReader PDF можно создавать новые PDF-документы, объединяя файлы различных форматов (PDF, Word, Excel, PowerPoint и т.д.), просматривать и удалять комментарии и метаданные, а также добавлять, удалять, поворачивать страницы. Более того, с помощью этого инструмента можно создавать и редактировать формы с заполняемыми текстовыми полями, раскрывающимися списками, опросниками с выбором нескольких ответов, кнопками и т.д. После создания документа его можно защитить при помощи пароля или заверить цифровой подписью.
Можно вносить правки прямо в текст PDF-документа или конвертировать его в полностью редактируемый формат. Интеллектуальные технологии оптического распознавания текста обеспечивают высокую точность воспроизведения документа, включая его структуру.
С помощью ContentReader PDF можно легко находить нужную информацию, даже в сканах — в этом поможет функциональность полнотекстового поиска по ключевым словам и закладкам. А еще можно совместно работать над одним документом: добавлять комментарии, делать пометки и задавать вопросы другим участникам процесса согласования.
Среди других полезных функций ContentReader PDF — сравнение документов разного формата, включая сканы, режим «Исправления», автоматизация однотипных задач по оцифровке и конвертации в «горячей папке» Hot Folder. ContentReader PDF может быть использован профессионалами в различных областях для решения широкого круга задач:
- секретари, офис-менеджеры — для обработки входящей корреспонденции и создания шаблонов документов
- проектные организации — для формирования единого PDF-документа из файлов разных форматов, согласования документов и конвертации технической документации в редактируемые форматы
- переводчики — для извлечения текста из документа и подготовки его для загрузки в программы автоматического перевода
- маркетологи и аналитики — для создания PDF из файлов различных форматов, согласования отчетов и макетов, подготовки и публикации PDF-документов
- менеджеры по продажам — для редактирования бумажных и PDF-документов, создания PDF из файлов разных форматов, сравнения документов
- научные сотрудники — для создания электронных копий научных статей и учебных материалов, подготовки единого документа на основе информации из разных источников
- юридические службы — для сравнения версий документа, удаления из текста конфиденциальной информации, защиты и подписания электронных документов
- бухгалтеры — для извлечения данных из PDF-текста, операций со страницами, удаления конфиденциальной информации
Сохранились на российском рынке и легендарные электронные словари Lingvo, один из первых продуктов, выпущенных ABBYY в начале 1990-х годов. Сегодня их продолжает развивать Content AI. В последней версии продукта, включающей 90 словарей для 10 языков, осуществлена оптимизация качества перевода по наведению: при наведении курсора мыши на слово теперь с высокой степенью корректности обрабатывается мелкий текст, текст в PDF-файлах и текст на изображениях. Словари доступны как в десктопном, так и в мобильном форматах.
Технологическое развитие продуктов и технологий Content AI
«Решая актуальные тактические задачи импортозамещения, нельзя забывать о функциональном развитии продуктов, выходе на новый качественный уровень», — говорит Светлана Дергачева и напоминает, что рост технологий в XXI веке идет по экспоненте, причем если раньше качественные шаги совершались каждые 5-10 лет, то сегодня эти этапы сократились до 1-2 лет, а иногда и нескольких месяцев. «Российский рынок должен поддерживать этот темп для сохранения конкурентоспособности», — подчеркивает генеральный директор Content AI. |
Выдерживая скорость происходящих изменений, компания Content AI за год своего существования смогла сформировать полноценную команду численностью свыше 100 человек, включая сильное направление разработки, лицензировать технологии ABBYY, выпустить модифицированные специально для российского рынка аналоги всех флагманских продуктов международного вендора и внести их в реестр отечественного ПО.
Мы успешно прошли стадию становления и сейчас переходим на следующий уровень развития бизнеса, на котором фокус будет сделан на формировании технологической стратегии и усилении отдела R&D, — говорит Светлана Дергачева. — Это важно для сохранения позиций технологического лидерства на российском рынке и возможности самим задавать тренды его движения. |
Content AI проводит индивидуальные консультации для компаний любого масштаба. Получить бесплатную консультацию по интеллектуальным решениям для бизнеса можно по ссылке.