Разработчики: | Abbyy Инфопоиск |
Дата последнего релиза: | 2014/12/15 |
Технологии: | Офисные приложения |
Содержание |
Технология Compreno предназначена для создания систем анализа, перевода и поиска текстов на различных языках.
Compreno - это технология перевода любого человеческого языка на универсальный язык понятий. Соответственно, Compreno включает в себя и сам этот универсальный язык понятий, который ABBYY тайком разрабатывала с 1990-х годов в своих исследовательских лабораториях.
2015: Старт продвижения Compreno в корпоративном сегменте
25 марта 2015 года компания ABBYY сообщила о развитии направления корпоративного бизнеса в сфере интеллектуальной обработки информации, которое является неотъемлемой частью рынков ECM, ERP, текстовой аналитики и поиска.
На 25 марта 2015 года на платформе ABBYY Compreno реализованы три решения:
- ABBYY InfoExtractor SDK,
- ABBYY Smart Classifier SDK
- ABBYY Intelligent Search SDK.
Пилотные проекты с использованием Compreno стартовали в Государственной Думе, КЭС-Холдинге, крупной нефтяной, энергетической и других компаниях из разных отраслей. Решения ABBYY Compreno позволяют:
- анализировать и извлекать нужную информацию из массивов неструктурированных данных (внутренних и внешних источников);
- распределять поток входящих документов по департаментам и ответственным;
- усовершенствовать поисковые системы.
«Учитывая огромный рост объема неструктурированных данных, в мире присутствует большой, постоянно растущий спрос на решения в области интеллектуальной обработки информации. Это направление является неотъемлемой частью рынков ECM и ERP, текстовой аналитики, поиска. Технологии ABBYY могут быть встроены в различные информационные системы, расширяя и дополняя их уникальными возможностями извлечения, анализа и поиска необходимой информации», – отметил Максим Михайлов, cтарший вице-президент, директор департамента ABBYY Compreno.
Технологии интеллектуальной обработки информации, 2014
2012: Анонс революционной технологии Compreno
В 2012 году Abbyy представила технологию Compreno. Универсальная Семантическая Иерархия (УСИ) - ядро языка понятий - насчитывает в это время 60 тысяч элементов в универсальном разделе когнитивной модели, 80 тысяч - в русском разделе, и 90 тысяч - в английском. Ничего даже отдаленного в мире не существует.
На февраль 2012 года мировых аналогов у Compreno нет, хотя в некоторых университетах и ведутся разработки в аналогичных направления. Однако фора в 15 лет, задействованные огромные человеческие ресурсы и материальные затраты позволяют надеяться, что ABBYY таки сумеет застолбить для себя эксклюзивное место первопроходца. На руку компании играет и то обстоятельство, что последние 10 лет подавляющая масса исследований в мире велась в русле статистической модели машинного перевода.
Compreno - это полноценная, не имеющая аналогов в истории технологическая революция. Масштаб этой революции, значение ее для людей (именно для всех людей, а не только для любителей компьютеров) сопоставимы разве что с изобретением World Wide Web или электронной почты. Никак не меньше. Для наглядности можно перевести эту революцию в понятные материально-купюрные реалии: если ABBYY спокойно, без суеты коммерциализирует Compreno хотя бы в десятой части возможных ее практических применений, а затем выйдет на фондовый рынок, капитализация компании затмит всех кумиров сегодняшнего дня - от Apple, грамотно и стильно эксплуатирующего весьма и весьма посредственные в технологическом отношении решения, до Google, умудряющегося заводить в тупик охапками большую часть собственных перспективных начинаний. (Сергей Голубицкий, обозреватель "Компьютерры", февраль 2012 года[1])
Как работает Compreno
Традиционные модели перевода
Успех обеспечил и правильный изначальный выбор направления для разработки системы автоматического перевода. В 1990-е в мире правила одна королева - Rule-Based Translation Model, классическая модель перевода, основанная на ограниченном наборе готовых правил для некоторой пары языков. Одна из проблем RBTM - в накоплении все новых и новых правил, которые в какой-то момент просто начинают конфликтовать между собой. Анализируя предложение, мы можем применить разные комплекты правил, при этом машине неведомы приоритеты. Перевод, основанный на RBTM, как правило, не озабочен полным синтаксическим анализом: вместо него предложение делится на фреймы, на которые затем интерполируют существующие в системе правила для получения перевода. RBMT системы не учитывают семантику[1].
В начале XXI века усилиями Google мир подсел на иглу нового алгоритма перевода - так называемой статистической модели. Основа СМ - наличие обширной базы разнонаправленных переводов. Мы задаем статистическому движку предложение для перевода, он ищет в базе данных как в словаре варианты уже существующих переводов аналогичного текста и после незначительных изменений выдает вполне приличный результат.
Изменения не самые существенные. Предположим нам нужно перевести предложение «в комнате стоит красный стул», а в статистической базе уже есть переведенная фраза «в комнате стоит зеленый стол» - решение элементарно: берется уже существующий шаблон перевода и новые слова просто заменяются по словарю.
Поскольку в СМ используются уже готовые человеческие переводы заведомо высокого качества, то на выходе получается весьма недурственный результат, ибо для осуществления перевода не нужно погружаться в синтаксис, специфику фразеологии конкретного языка и проч.
Все замечательно, однако, лишь до тех пор, пока дело не касается переводов в направлениях с так называемым низким покрытием (скажем, каким-нибудь, румынско-русским или тайско-венгерским).
Где брать аналоги? По словам Сергея Андреева опасность подстерегает также при уходе в предметные области на массовых направлениях, потому что параллельных текстов становится сильно меньше, чем в бытовой и разговорной тематике. Сочетание ухода в предметную область и не самого массового направления перевода приводит к слабым результатам. Скажем, IT. Казалось бы, какие сложности могут возникнуть у машинного перевода с текстом на тему информационных технологий? В самом деле - никаких, если мы занимаемся русско-английским переводом. Зато они тут же возникнут на русско-французской ниве! Статистическая база в этом направлении чрезвычайно скудная и лакуны возникают на каждом шагу.
Выход в рамках СМ для подобных ситуаций найден лишь паллиативный: работая с языками / темами низкого покрытия в качестве посредника используется английский язык. То есть сперва делается перевод с русского на английский, а затем уже с английского на, скажем, румынский, или тайский. В результате получается очень заметное снижение качества перевода.
Самое печальное, что проблема с плотностью покрытия в рамках СМ никак не решается принципиально. Единственный выход: нанять сотни тысяч переводчиков и заставить их заполнять лакуны по всем направлениям с низким статистическим покрытием. Как вы понимаете, никто это делать не сможет и не будет.
Помимо сложностей с низкой плотностью переводов по направлениям, выпадающим из узкого мейнстрима, у СМ еще множество мелких изъянов. Например, статистическая модель совершенно убого справляется с переводами имен собственных. Многие помнят о переводе Ющенко, как Януковича, а России как Канады. Отрицание (частичка «не») - это очень сложное препятствие. Частичку «не» можно правильно позиционировать в результате лингвистического анализа текста, а СМ таковым не занимается. В результате предложения, содержащие отрицание, часто переводятся движками на статистической модели с точностью до наоборот.
Как бы там ни было, ABBYY изначально отказалась от Rule Based Translation Model и замахнулась на систему компьютерного перевода нового поколения. Надо сказать, что придумывать особо ничего не требовалось. Универсальный язык понятий существует в структурной лингвистике в виде давней и несбыточной мечты еще со времен Людвига Витгенштейна. Даже Наум Хомский в своих ранних трудах лишь углублял существующую утопию.
Универсальная Семантическая Иерархия (УСИ)
Проект Compreno исходил из трех основополагающих посылок:
- использование качественного и бескомпромиссного синтаксического анализа.
- создание универсальной когнитивной модели языка, возможность которой определяется аксиомой о том, что люди, хоть и живут в разных условиях и говорят на разных языках, однако в массе своей мыслят одинаково. Формы выражения мысли разные, а вот понятийный аппарат совпадает.
- автоматизированное корпусное дообучение - лингвистические описания верифицируются и дополняются на основании статистической обработки корпусных данных.
Исходя из этих посылок была сформулирована идея Универсальной Семантической Иерархии (УСИ), способной описывать явления от общего к частному. На составление этой иерархии у ABBYY и ушло 15 лет. На февраль 2012 года это 70 тысяч понятий в универсальной части когнитивной модели, более 80 тысяч - в русской, более 90 - в английской.
Алгоритм машинного перевода на УСИ
Алгоритм машинного перевода, основанного на УСИ, выглядит следующим образом:
- Лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);
- Морфологический анализ (определение грамматических характеристик лексем);
- Синтаксический анализ (установление структуры предложения);
- Семантический анализ (выявление выражаемого значения в системе языка);
- Синтез из универсальной семантической структуры предложения на выходном языке.
В результате подбор слов для перевода осуществляется не напрямую из первого языка, а из понятийного набора, который, условно говоря, «висит» на той же ветке универсального семантического дерева, но только уже со стороны второго языка.
Поскольку модель УСИ сквозная, нижестоящие элементы системы по иерархии наследуют признаки вышестоящих элементов. Это простое, казалось бы, обстоятельство позволяет добиваться беспрецедентной точности машинного перевода, поскольку каждое слово из переводимого предложения описывается максимальным набором понятийных эквивалентов, причем не только видового, но и родовых качеств на всех уровнях смысловой иерархии.
В УСИ предусмотрены взаимосвязи между элементами структуры, относящимися к разным классам, и эти связи также структурированы и формализированы, что позволяет выполнять многоуровневый понятийный анализ текста, также повышающий качество перевода[1].
Варианты применения
Перспективы, которые открывает Compreno, безбрежны и разнообразны:
- компьютеризированный перевод текста с любого языка на любой на качественном уровне, несопоставимым со всеми распространенными сегодня системами перевода;
- полноценный интеллектуальный поиск без специализированного синтаксиса запросов (Поиск по смыслу, извлечение фактов и связей между объектами поиска/мониторинга; мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа и др.);
- системы искусственного интеллекта самых разнообразных профилей и применений;
- автоматическое распознавание речи;
- классификация документов и поиск похожих документов по смыслу;
- анализ тональности в мониторинге;
- реферирование и аннотирование (написание краткого содержания длинных документов)
и это только начало.
Сложности применения технологии
Самым узким местом для глобального применения семантико-синтаксического анализа в массовых поисковых системах выступают очень высокие требования к компьютерным мощностям, необходимым для индексации информационных массивов на понятийном уровне. Требования эти несоизмеримо выше, чем при существующих формах традиционной индексации. Впрочем, уже сегодня методика семантико-синтаксического анализа может эффективно применяться (и применяется ABBYY - видел полностью функциональный прототип поискового движка собственными глазами) для более целенаправленного и узкого поиска в закрытых корпоративных системах.
2011: Создание компании «Abbyy Инфопоиск» и получение гранта 450 млн руб от "Сколково"
В феврале 2011 г. фонд «Сколково» одобрил выделение гранта в размере 450 млн руб. компании Abbyy. Деньги выделяются для создания технологии автоматической обработки текстов Compreno, общий бюджет проекта составит 950 млн руб. (остальные средства вложит сама Abbyy). Грант от «Сколково» - безвозмездный и не предполагает возврата инвестиций, отметили в Abbyy. Ранее президент «Сколково» Виктор Вексельберг называл Abbyy в числе тех компаний, с которыми фонд намерен сотрудничать.
Для осуществления работ по гранту была создана отдельная компания «Abbyy Инфопоиск». Она станет одним из первых резидентов иннограда «Сколково», отмечает Андреев, в нее будет переведен штат специалистов, работающих над технологией Compreno, и соответствующая интеллектуальная собственность. Правда, пока новая компания будет функционировать за пределами «Сколково» по причине не готовности инфраструктуры иннограда.
По состоянию на февраль 2011 г. большая часть работ по созданию технологии Compreno уже произведена, говорил Сергей Андреев, президент ABBYY, над ней работают 300 специалистов, затративших на проект «1 тыс. человеколет». Затраты, уже вложенные в Compreno, президент Abbyy оценивает приблизительно в $50 млн. Коммерческие продукты на основе новой технологии должны появится в течении двух – трех лет.
1990-е: Старт разработки
Начало разработки Compreno пришлось на 1990-е годы, когда в арсенале ABBYY (в те годы - еще BIT Software) уже числилось два ледокола: словари Lingvo и программа для распознавания текста FineReader. Продукты продавались по всему миру, были хитами и приносили стабильную прибыль - манна небесная для романтических проектов вроде Compreno, стресс которых не пережил бы ни один сторонний инвестор (Вкладывать миллионы долларов в нечто совершенно революционное да к тому же и с неизвестными перспективами? А вдруг ничего не получится?).
ABBYY обошлась без чужих денег и это спасло Compreno, позволив довести до победного конца проект со столь колоссальными материальными и людскими затратами.
Примечания
Заказчик | Интегратор | Год | Технологии |
---|---|---|---|
- Сбербанк | Abbyy Россия | 2020.06 | СЭД - Системы потокового распознавания, Средства разработки приложений, Средства разработки приложений |
- Энергомаш имени В.П. Глушко НПО | Abbyy Россия | 2020.06 | Офисные приложения |
Подрядчики-лидеры по количеству проектов
Softline (Софтлайн) (176)
МойОфис (ООО Новые облачные технологии) (79)
Синтеллект (Syntellect) (76)
Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (53)
Wone IT (Ван Ай Ти Трейд, ранее SoftwareONE Россия, СофтвэрУАН и Awara IT Russia, Авара Ай Ти Солюшенс) (36)
Другие (915)
Синтеллект (Syntellect) (52)
Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (14)
Almi Partner, Алми партнер (ГК Алми) (9)
Softline (Софтлайн) (9)
CommuniGate Systems (СталкерСофт) (5)
Другие (82)
Датапакс (11)
Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (9)
CommuniGate Systems (СталкерСофт) (5)
МойОфис (ООО Новые облачные технологии) (4)
Qsoft (Кьюсофт) (4)
Другие (54)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Microsoft (61, 476)
МойОфис (ООО Новые облачные технологии) (12, 89)
Синтеллект (Syntellect) (2, 77)
Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (2, 67)
СБК (Система безопасных коммуникаций) (2, 42)
Другие (620, 483)
Синтеллект (Syntellect) (2, 52)
Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 18)
Microsoft (6, 15)
СБК (Система безопасных коммуникаций) (1, 11)
The Document Foundation (2, 10)
Другие (32, 48)
СБК (Система безопасных коммуникаций) (1, 9)
Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 9)
МойОфис (ООО Новые облачные технологии) (2, 5)
Qsoft (Кьюсофт) (1, 4)
Тест АйТи (Test IT) (1, 3)
Другие (17, 19)
Корус Консалтинг (1, 8)
МойОфис (ООО Новые облачные технологии) (1, 8)
Яндекс (Yandex) (1, 7)
Cloud4Y (ООО Флекс) (1, 7)
Qsoft (Кьюсофт) (1, 7)
Другие (21, 40)
РуПост (3, 4)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 4)
Корус Консалтинг (1, 4)
СКБ Контур (1, 4)
VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
Другие (15, 20)
Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)
Microsoft Office - 189 (58, 131)
Microsoft 365 (ранее Office 365) - 131 (127, 4)
Новые облачные технологии: МойОфис - 94 (73, 21)
Skype for Business (ранее Microsoft Lync) - 68 (67, 1)
Р7-Офис - 67 (67, 0)
Другие 427
Syntellect Tessa Мобильное согласование - 30 (30, 0)
Syntellect Tessa Графический визуализатор процессов - 28 (28, 0)
Р7-Офис - 18 (18, 0)
CommuniGate Pro - 11 (11, 0)
LibreOffice - 9 (0, 9)
Другие 35
CommuniGate Pro - 9 (9, 0)
Р7-Офис - 9 (9, 0)
Новые облачные технологии: МойОфис - 6 (5, 1)
Qsoft Teamly Система управления знаниями - 4 (4, 0)
Test IT TMS (Test Management System) - 3 (3, 0)
Другие 16
Корус Консалтинг: K-Team - 8 (8, 0)
Новые облачные технологии: МойОфис - 8 (8, 0)
Яндекс 360 (ранее Почта 360) - 7 (7, 0)
Qsoft Teamly Система управления знаниями - 7 (7, 0)
Microsoft Hosted Exchange - 7 (0, 7)
Другие 30
Корус Консалтинг: K-Team - 4 (4, 0)
EXpress Защищенный корпоративный мессенджер - 4 (4, 0)
Контур.Толк - 4 (4, 0)
Р7-Офис - 3 (3, 0)
RuPost Система управления корпоративной почтой - 2 (2, 0)
Другие 17