Владимир Арлазаров, Smart Engines: Современная система анализа и распознавания документов может считывать 15 страниц в секунду
Цифровизация российских компаний и предприятий приводит к тому, что все больше документов различных типов обретают электронный вид. Технологии распознавания текста документов (OCR, Optical Character Recognition) — базовый элемент процессов автоматизации обработки документов, в котором применяются алгоритмы искусственного интеллекта. Такие системы уже имеют большую историю, но продолжают развиваться, ведь цифровизация корпоративных бизнес-процессов предъявляет новые и новые требования к их функциональности, гибкости, надежности и возможностям встраивания в цепочки бизнес-процессов. О перспективах развития технологии распознавания текстов TAdviser побеседовал с генеральным директором Smart Engines, доктором технических наук, доцентом Владимиром Арлазаровым.
Расскажите, пожалуйста, какие факторы наиболее сильно двигают развитие технологий OCR сегодня.
Владимир Арлазаров: На данный момент мы видим три фронтира в сфере распознавания документов. Первый связан с тем, что идет тотальная цифровизация и сейчас для решения всех задач используются мобильные телефоны. Несмотря на то, что смартфоны и камеры в них с каждым годом становятся все лучше и лучше, качество изображений, которые присылаются на обработку, становится все хуже и хуже. Люди фотографируют документы в любых условиях. Если раньше они пытались делать это более или менее аккуратно, то сейчас все отдается на откуп искусственному интеллекту. И это серьезный вызов как для старых систем распознавания, так и для новых. Сегодня система должна распознавать на фотографиях баркоды, таблицы, различные формы документов, а также детектировать чек-боксы, печати и подписи. В условиях низкого качества изображения и серьезных геометрических искажений, связанных с фотографированием, это становится не просто сложной задачей, но и научным вызовом.
Какие два других фронтира?
Владимир Арлазаров: Второй фронтир — это, конечно, распознавание рукописного текста. Это то, что сейчас активно развивается. Мы ставим перед собой цель добиться промышленного качества распознавания рукописных текстов в любых документах, а не только в паспорте. И третий фронтир, и по сути это главная задача цифровизации — это сделать ввод данных из документов полностью автоматическим, то есть превзойти по качеству человека и полностью убрать ручной ввод. Сделать так, чтобы в прошлое ушли такие истории, как Human-in-the-loop и Mechanical Turk. Нам уже удалось этого добиться для распознавания паспорта РФ. Есть процессы, в которых наши клиенты отказались от ручного труда своих операторов для верификации данных.
По Вашим оценкам, каково сегодня соотношение количества документов, которые появляются в организации в бумажном виде и требуют перевода в электронный вид для последующей обработки в цифровых системах, и тех, которые изначально поступают в электронном виде? Каким образом соотношение изначально бумажных и электронных документов сказывается на функциональности современных передовых систем OCR?
Владимир Арлазаров: По нашим оценкам, все очень сильно зависит от типа бизнеса и от организации. Многие годы, даже десятилетия мы слышим о том, что бумага уйдет в прошлое. Однако до сих пор никто не смог предложить ничего столь удобного, как бумага. Если вам нужно что-то исправить на бумаге — вы берете, зачеркиваете, пишете «исправленному верить», ставите подписи, печать и все. А теперь представьте, что вам надо будет сделать, если этот документ электронный, а вы с водителем на складе? Еще много других причин — законодательных, исторических — требуют использования бумажных носителей. И в целом мы видим рост бумажных документов, хотя, конечно, если бы не было цифровизации, то мы бы давно в них утонули. Так что в ближайшее время мы не ожидаем, что эта тенденция поменяется.
Какие задачи решает современная интеллектуальная система анализа и распознавания документов в компании? Каких практических результатов можно добиться, если внедрить такую систему? Например, в части распознавания многостраничных документов, потоковой обработкой документов и т.д. Какую роль при распознавании документов играет именно OCR?
Владимир Арлазаров: Современная система анализа и распознавания документов представляет достаточно сложный интеллектуальный комплекс, состоящий не только из алгоритмов оптического распознавания самих символов, но и решающая достаточно сложные задачи — классификации документов, проверки комплектности, проверки согласованности заполнения, проверка наличия обязательных атрибутов, таких как подпись, печать там, где они уместны и обязательны. А также этот комплекс дополняется системой выявления мошенничества, которая проверяет целостность данных и изображения документа, выявляет манипуляции с изображением, и обнаруживает другие махинации.
Какие именно махинации?
Владимир Арлазаров: Например, некоторые пытаются подделать подписи, нарисовать печати или заменить кусочек документа тем, что нужно человеку. Как пример — изменение доверенности, кто-то пытается физически стереть или заменить данные, кто-то редактирует изображения. Фактически комплекс форензики для корпоративных документов не сильно отличается от комплекса, предназначенного для проверки удостоверяющих документов, но есть определенные нюансы. Кроме всего прочего, есть специальные документы, которые в принципе с точки зрения защиты сделаны ничем не хуже, чем те же самые паспорта.
Компании обычно используют различные типы документов, часть из которых имеет произвольную структуру. Каким образом система OCR умеет определять тип документа, например, в целях дальнейшей маршрутизации документа? С какими типами документов ваш продукт Smart Document Engine (SDE) умеет работать «из коробки»? Как можно обеспечить обработку документов произвольных типов?
Владимир Арлазаров: В нашей системе Smart Document Engine реализован специальный интеллектуальный механизм, который умеет определять тип документа по так называемому созвездию ключевых точек. Это наш авторский алгоритм, а для его настройки у нас имеется специальная подсистема — дизайнер, которая позволяет настраивать распознавание новых типов документов. Ну и, конечно, у нас есть система полнотекстового распознавания, которая в принципе распознает любые находящиеся на странице тексты. Сегодня «из коробки» система Smart Document Engine распознает 65 типов документов. Это счет-фактура, УПД, ТОРГ-12, товарная накладная, акты, договор, счет, бухгалтерский баланс, справка о доходах физического лица (ранее 2-НДФЛ), выписки из ЕГРЮЛ, ЕГРИП, ЕГРН, различные свидетельства, справки и другие утвержденные формы документов. С помощью системы клиенты решают задачи распознавания первичных документов, извлечение данных из анкет и опросников, автоматического ввода банковских документов и другие задачи.
Обычно применительно к системам OCR говорят о распознавании отсканированных бумажных документов. Но сегодня компании нередко используют обмен фотографиями страниц документов. Такие варианты документа можно обработать тоже с помощью современной OCR и, в частности, Smart Document Engine?
Владимир Арлазаров: Распознавание фотографий с самого начала являлось обязательной частью нашей программы. Первым шагом система находит документ и ректифицирует его, то есть восстанавливает геометрические искажения и позволяет работать с ним так, как будто документ отсканирован. Второе — мы полностью отказались от этапа бинаризации, которая была свойственна системам старого поколения. Все наши алгоритмы работают на полутоновых или исходных изображениях, тем самым позволяя нам быть устойчивыми к перепадам света, тени, освещению и т.д. Для того, чтобы этого добиться мы разработали и применяем собственную систему синтеза обучающих данных. Она позволяет нам синтезировать обучающие выборки для нейросетей, которые хорошо отражают основные искажения, появляющиеся при фотографировании в любых условиях. Поэтому нашей системе в принципе все равно, что ей придет на вход — фотография или скан.
Один из факторов конкурентоспособности — поддержка различных языков. На каком уровне это реализовано в продуктах Smart Engines? Распознавание рукописных текстов также поддерживается на всех языках? Зачем компания расширяет список поддерживаемых языков? Есть цель активной работы на зарубежных рынках?
Владимир Арлазаров: Наша система поддерживает 102 языка — все те же языки, фактически которые поддерживаются для распознавания удостоверяющих документов. Для ID-документов мы решили задачу распознавания на сложных фонах с большим количеством помех, а затем использовали этот опыт для нашего движка Smart Document Engine. Рукопись поддерживается пока только кириллическая, однако мы активно работаем над расширением перечня поддерживаемых языков. Эта работа ведется, поскольку мы активно работаем в странах MENA, на зарубежных рынках Европы, Америки, да и практически во всем мире. В частности, мы справляемся с задачей распознавания иероглифических языков – Японии, Кореи, Китая.
Решения и продукты OCR — это традиционно конкурентный рынок. Причем, конкурируют на нем не только разработчики ПО и ИТ-архитектур, но и научные школы. При этом есть некоторые общепринятые подходы, например, концепция processing или конвейера (OCR-pipeline). Расскажите, пожалуйста, что сегодня можно отнести к общепризнанным технологическим знаниям в области OCR, а в каких аспектах вендоры собственные уникальные методы и подходы.
Владимир Арлазаров: Мы как бы сами по себе составляем одну из научных школ, которая работает в области OCR достаточно давно. И наша основная концепция, отличающая нас от других, заключается в том, что мы используем очень компактные и легковесные архитектуры, которые позволяют нам распознавать документы на мобильных телефонах или на платформе Эльбрус. Второе — мы используем подход Course-to-Fine, который мы описывали в наших научных трудах. Этот подход по построению систем, который позволяет нам строить систему, устойчивую к широкому классу искажений.
Для систем OCR, особенно для поддержки поточной обработки документов, большое значение имеет скорость распознавания. За счет чего сегодня достигаются высокие скорости распознавания? Каких показателей достигает производительность распознавания Smart Document Engine в реальных внедрениях и лабораторных тестах? Какие требования предъявляют высокопроизводительные алгоритмы распознавания к аппаратному обеспечению? Требуется ли для их использования модернизация компьютерного «железа»?
Владимир Арлазаров: В данный момент для распознавания страницы А4 документа на обычном смартфоне мы тратим 2-3 секунды. Этого мы добились за счет комплекса мер. Во-первых, мы уделяем огромное внимание алгоритмической оптимизации всего используемого алгоритмического аппарата. Мы сами реализовали все необходимые библиотеки, включая даже библиотеки линейной алгебры и ведем исследования в направлении максимально эффективного исполнения нейросетей. Тут у нас есть очень серьезные результаты, которые опубликованы в научных журналах и запатентованы. Фактически мы сейчас противостоим миру, который следует девизу: «Если вам нужна скорость — купите еще немножко GPU». Мы же убеждены: если вам нужна скорость — включите мозги, примените научный подход и правильно решите задачу, а не пытайтесь просто расширять вычислительные мощности. И фактически для обычного предприятия нам не нужны никакие специальные GPU, достаточно обычного сервера, который будет запущен на распознавание документов, и все.
У компании Smart Engines — своя концепция OCR, которая называется GreenOCR. Звучит так, что она связана с экологией. Это так? Насколько уникальным является такой подход к реализации технологий OCR для российского и глобального рынка?
Владимир Арлазаров: Ни для кого не секрет, что нейронные сети стали потреблять огромное количество энергии. Например, тот же ChatGPT потребляет столько же энергии, сколько небольшой город. Если говорить про распознавание, то мы понимаем нашу ответственность и для уменьшения вреда придумали научный подход к распознаванию, позволяющий справляться с этой задачей распознавания документов с наименьшими энергозатратами — GreenOCR. Данный подход является уникальным для рынка и России. Кроме того, мы являемся членами международной программы ООН и каждый год высаживаем по гектару леса, чтобы полностью компенсировать наш углеродный след.
Ключевой параметр любой системы OCR — точность распознавания. Если задача обработки сканов решается уже давно, то распознавание фотографий документов новый вызов. Расскажите как ваша система справляется с искажениями, характерными для фотографий: они могут оказаться засвеченным или повернутыми, проективностью, изменением цвета фона документа на изображении и т.д.?
Владимир Арлазаров: Чтобы распознавание было автоматическим — точность распознавания должна быть очень высокой. И здесь мы создали комплекс. Первый этап — этап ректификации документа, когда документ обрабатывается как отдельный объект. Если снят под углом — определяются углы, если он изогнут — определяются уровни изгиба, а затем документ восстанавливается как будто он был отсканирован. Дальше, чтобы наши нейросети были устойчивы к освещению, мы создали модель аугментации и как я уже говорил мы обучаем сети на синтетических данных.
В корпоративных материалах некоторых компаний говорится, что точность распознавания реквизитов документов доходит до 99,5% без участия человека. Разве такого уровня точности автоматического распознавания можно достичь?
Владимир Арлазаров: Надо разделять маркетинг и реальность. Действительно многие компании сейчас рассказывают всем о том, что их точность уже доходит до 99,5%, а у некоторых даже превышает ее. При этом никаких объективных сравнений они не приводят. Поэтому говорить о серьезности этих заявлений достаточно сложно. С научной точки зрения правильно было бы создать обширный и репрезентативный датасет, опубликовать его и показать работу, открыть свой алгоритм и показать работу этого алгоритма и зафиксировать точности. Тогда это будет верифицируемый и значимый результат. Я такого на сайтах или в маркетинговых материалах пока не видел.
Решения OCR сегодня становятся элементами бизнес-процессов. Значит, речь идет об интеграции OCR с различными корпоративными информационными системами? Насколько легко компании можно организовать нужные интеграции? На какие виды информационных систем распространяется эта возможность?
Владимир Арлазаров: Ну мы представляем библиотеку, которую можно интегрировать практически в любой процесс. По нашему опыту, нашу библиотеку интегрируют от создания специального внутреннего корпоративного сервиса распознавания до интеграции в передачу данных. А так как работает она практически мгновенно, то возможны любые варианты работы на всех платформах и совместима с большей частью операционных систем. Так, например, для обработки 1000 УПД в сутки хватит виртуальной машины с 2 ядрами или обычного мобильного телефона, а на HPC достигается скорость распознавания порядка 15 документов в секунду.
Конечно, обеспечивается интеграция Smart Document Engine с другими продуктами компании Smart Engines. Какие новые возможности для автоматизации бизнес-задач компаний открывают такие интеграции?
Владимир Арлазаров: Smart Document Engine извлекает реквизиты из документов, распознает их и проверяет на подлинность. В отличие от процессинга, о котором говорят многие команды, наша система работает по иному принципу: распознать то, что напечатано, а не исправлять ошибки. Что такое процессинг? Очень иллюстративный пример — это превращение молока в молочные продукты, когда из молока получаются сметана, ряженка, кефир — это все процессинг. Но все это не молоко, все эти продукты имеют другие свойства. Поэтому мы не говорим о процессинге, а говорим о конкретных задачах распознавания реквизитов и анализа документов. Такие возможности наша система дает, а процессинг наши клиенты могут сделать для себя в своих системах.
Что такое, по Вашим представлениям, «Настоящий Отечественный программный Продукт»?
Владимир Арлазаров: На самом деле дать определение очень просто: он должен быть разработан российской командой, принадлежать компании, акционерами которой являются российские граждане, юридические лица. Компания должна вести активную деятельность в России и использовать как можно меньше западных компонентов в своей системе. При этом это касается компонентов достаточно глубоких, связанных с библиотеками математических подпрограмм, нейросетевых и так далее. И исходный код, патенты и научные знания должны принадлежать компаниям, находящимся в России, а не неизвестно где. Если в системе распознавания используется иностранная OCR (даже бесплатная), то называть это продукт отечественным некорректно. Ведь с точки зрения трудоемкости создания, именно OCR это по сути 90% системы распознавания.
Он должен быть многоплатформенным?
Владимир Арлазаров: Обязательно многоплатформенный, он должен не только поддерживать несколько российских ОС, но и несколько российских аппаратных платформ. А самое главное, чтобы интеллектуальная собственность, разработки, знания должны быть в России. Кроме того, если ваша система не работает на мобильных ОС, то говорить о многоплатформенности странно, смартфоны сейчас самое распространенное вычислительное устройство. Под работой мы подразумеваем не захват изображения, чтобы отправить его на распознавание на сервер, а именно проведение всех вычислений на устройстве. Наша OCR способна распознавать даже в браузере.
Интересный вопрос связан с темой персональных данных. Системы на основе OCR обрабатывают и документы с персональными данными граждан, а также сведения, составляющие коммерческую тайну, банковскую тайну и прочие виды тайн. Есть ли какие-либо риски утечки персональных данных или коммерческой тайны при распознавании документов?
Владимир Арлазаров: Существуют два типа решений. Первый — это библиотеки и системы, которые работают в контуре заказчика. Второй — это сервисная модель, когда документ сразу или на каком-то этапе передается на обработку в сервис. И тут я соглашусь с одним из экспертов: если в ваших бизнес-процессах есть хотя бы небольшой шанс утечки данных, то считайте, что она уже произошла. С On-premise решениями тоже все не так просто. Если библиотека с открытым исходным кодом, то только при правильном ее использовании и создании специального контура информационной безопасности она будет достаточно безопасной. Очевидно, что использование автономных библиотек сопряжено с меньшим количеством проблем, а работа в контуре позволяет минимизировать риски утечки. Про внешние сервисы этого сказать нельзя.
Что Вы считаете ключевыми конкурентными преимуществами Smart Document Engine в настоящий
Владимир Арлазаров: Конкурентное преимущество продукта — три кита: скорость, качество и автономность. В данный момент мы ведем развитие по всем направлениям: развиваем функциональность, повышаем качество и увеличиваем скорость распознавания. Все это для того, чтобы клиент получил главное — полностью автоматическое распознавание документов.