Заказчики: NevaMedia Gmbh Москва; Информационные технологии Продукт: DeductorДата проекта: 2014/01 — 2004/12
|
Технология: Data Mining
Технология: Data Quality - Качество данных
|
Содержание |
Профиль клиента
NevaMedia Gmbh – компания, занимающаяся профессиональными переводами и компьютерной лингвистикой. NevaMedia обеспечивает качественный перевод, верстку, локализацию, допечатную обработку на всех европейских, русском и турецком языках.
Задача
В клиентских базах данных накопилось большое количество материалов с описанием деталей и конструкций. Эти описания подготавливались инженерами в течение довольно длительного времени и составлялись ими в произвольной форме. Такой текст легко обрабатывается человеком, но плохо поддается машинному анализу. А невозможность применения автоматизированных методов значительно увеличивает стоимость его обработки.
Целью проекта было создание механизма, позволяющего очищать и стандартизовать тексты с описанием деталей и конструкций. Под стандартизацией подразумевается процесс извлечения из 'статьи' (строки с описанием чего-либо) значимых данных и систематизации их в соответствии с заранее определенным шаблоном.
Решение
Разработанная система решает поставленную задачу, основываясь на механизмах самообучения и ассоциативной памяти. Специалист разбирает статью, а система на этих данных автоматически обучается производить стандартизацию и "подсказывает" пользователю наиболее вероятный вариант разбивки. По мере накопления "опыта" улучшается качество стандартизации и увеличивается скорость обработки.