2024/02/07 13:59:00

SOICA: как OCR помогает автоматизировать документооборот

Практически все крупные и средние компании перешли на работу с электронными документами — это касается как документооборота с контрагентами, так и оцифровки бумажных версий. В обоих случаях совместно с СЭД (и иными системами хранения и обработки документации) применяются OCR-решения. Они позволяют извлечь информацию из скан-образов и цифровых копий структурированных и неструктурированных документов любого типа, автоматизируя таким образом работу различных подразделений. Рассмотрим подробнее типичные сценарии использования современных OCR-решений, которые реализовывает команда SOICA компании SL Soft.

Содержание

Сценарий 1. Оцифровка архивов

При хранении документов в бумажном виде компании сталкиваются с рядом проблем, например, с утратой оригиналов или сложностью подбора комплекта под запрос. Поэтому большую популярность получили специализированные архивы, в которых хранятся данные как из первично электронных документов, так и из оцифрованных копий бумажных. Правильно организованный архив позволяет быстро искать нужные документы и разграничивать доступ с учетом полномочий, поддерживает юридическую значимость и соответствует всем требованиям законодательства в области архивного хранения и электронной подписи.

Для того, чтобы это было осуществимо, по каждому отсканированному документу создается специализированная карточка, в которой содержатся все значимые данные с необходимыми атрибутами. Поиск по оцифрованным документам становится полноценным благодаря созданию текстового слоя всего документа. Это важно, когда требуется подготовить документы под запрос контролирующих органов.

Пример карточки выписки из гос реестра по юридическому лицу.

Image:Пример карточки выписки из гос реестра по юридическому лицу.png

Платформа SOICA может работать с любыми типами документов, как с формализованными — счетами-фактурами, накладными, актами, УПД, ТОРГ-12 и т.п., так и неформализованными — договорами, приказами, протоколами и другими. Важно отметить, что оцифровке подлежат ветхие документы, копии низкого качества, в том числе, со следами от тонера, разрывами и иными механическими повреждениями, листы нестандартного размера (включая А0) и содержащие чертежные шрифты.

Сценарий 2. Классификация и маршрутизация входящих документов

При поступлении входящих документов в ряде организаций критически важно их быстро передать в нужные подразделения. Особенно актуально это в ритейле, кредитных, банковских, страховых организациях и в ТЭК. Документы могут приходить по электронной почте, браться из локальной или сетевой папки или поступать по REST API в виде потока в форматах DOCX, PDF, JPG, PNG, TIFF, BMP и иных.

Часто встречается ситуация, когда несколько типов документов содержатся в одном файле, поэтому требуется их разделение. SOICA умеет классифицировать входящие документы, причем не просто индексируя данные, а проводя полнотекстовый анализ содержимого. После классификации из файла извлекаются необходимые атрибуты, и в нужные подразделения направляются уже только те данные, что необходимы для дальнейшей работы.

Сценарий 3. Полнотекстовая сверка и сверка с шаблоном

Несогласованные изменения в документах влекут за собой финансовые риски. Использование SOICA для дополнительной проверки договорной документации помогает их нивелировать, выявляя несоответствия и оповещая о них пользователей. Во-первых, возможно осуществлять проверку договоров, приложений, дополнительных соглашений и других документов на соответствие шаблонам. При реализации этого сценария изменяемые фрагменты — даты, номер договора, наименование юридического лица контрагента и т.п. — из проверки исключены, остальные же данные сравниваются полнотекстово.

Во-вторых, SOICA сопоставляет между собой версии документов, например, файл в формате DOCX, составленный на этапе согласования, со скан-образом присланной копии подписанного документа.

Image:договор подряда.png

Сценарий 4. Обработка первичной документации

SOICA умеет работать со всеми типами первичной документации — счета, счета-фактуры, акты, УПД, ТОРГ-12, транспортные накладные, УКД, КСФ, ИСФ и прочими. Автоматизация распознавания сканов первичной документации значительно ускоряет скорость работы и снижает число ошибок.

Встроенные математические проверки позволяют контролировать качество распознавания чисел. Сверка с базой ЕГРЮЛ или ФНС обеспечивает сверку банковских реквизитов и иных данных о юридическом лице. Также SOICA может производить сверку номенклатурных позиций с локальными справочниками конечной системы. Сотрудник подключается только в тех случаях, когда это сопоставление не удалось.

Поскольку многие компании пользуются продуктами 1С, совместно с «1С-Рарус» разработан коннектор для передачи данных из SOICA в «1С:Документооборот».

Сценарий 5. Обработка кадровых документов

В компаниях с массовым подбором персонала внедрение OCR-технологии значительно снижает нагрузку на HR-департамент и отдел кадров. При большом потоке задач оператор может сканировать персональные документы, не создавая отдельные файлы для каждого соискателя. SOICA самостоятельно формирует комплекты кандидатов, основываясь на фамилии, дате рождения и иных атрибутах. Далее информация автоматически заносится в учетную систему.

Обработка кадровых документов.png

Таким образом не только увеличивается скорость обработки кадровых документов, но и снижается влияние человеческого фактора — исключены опечатки, а полнота предоставленного комплекта проверяется автоматически.

Сценарий 6. Выверка данных

Платформа SOICA может проверять в документации по различными справочникам и базам (включая внешние — ФНС и МВД) такие данные, как реквизиты, номенклатуры, имена, товарные позиции, единицы измерения и т.п.

Кроме того, в ряде документов критически важно наличие сопутствующих элементов — подписей, печатей, штампов и меток. В этом случае, если SOICA обнаружит их отсутствие, то документ не передастся в конечную систему, а пользователь получит оповещение об ошибке.

В тех случаях, когда осуществляется работа с комплектом документов, происходит сверка данных внутри его составляющих, например, совпадение ФИО контрагента, реквизитов и т.п.

Сценарий 7. Модификация документов

При хранении скан-образов важна читабельность информации, отсутствие пятен, теней и т.п., а также небольшой вес изображений. В SOICA 18 встроенных фильтров для бинаризации и очистки, что позволяет добиться наилучшего результата обработки. Еще одной задачей по модификации является разделение документа на отдельные файлы, например, когда паспорт и СНИЛС отсканированы на одном листе.

Image:Рисунок4Модификация документов.png
Image:Рисунок5Модификация документов.png
Image:Рисунок6Модификация документов.png

После окончания работы с документом он передается в СЭД или архив. В ряде случаев требуется придать документу финальный вид, привычный для человеческого восприятия, то есть нанести факсимиле — штамп вида «Проверено», «Утверждено» и т.п. Также у ряда компаний возникает потребность в добавлении на документ штрих- или qr-кода, что позволяет быстро найти файл в конечной системе. SOICA может автоматически наносить как факсимиле, так и коды с требуемой информацией.

Общая схема обработки документов в SOICA

Image:Рисунок7Общая схема обработки документов в SOICA.png

Развертывание и интеграция

SOICA легко встраивается в ИТ-ландшафт заказчика, поскольку интеграция осуществляется посредством использования REST API. Работа осуществляется через браузер по локальной сети, без доступа в общую сеть Интернет, за исключением случаев, когда нужна сверка с внешними базами. Для обеспечения безопасности используются защищенные протоколы связи, такие как HTTPS и Transport Layer Security (TLS).

Решение развертывается и масштабируется благодаря использованию контейнеризации. В случае необходимости система может быть перемещена на новые мощности или путем добавления новых контейнеров увеличивается пропускная способность.

SOICA входит в реестр отечественного программного обеспечения, технология распознавания строится на собственном OCR-движке. По широте функциональных возможностей SOICA может уверенно заменить иностранные решения. Скорость обработки документов — от 2 000 страниц в час.