3i Speech Recognition API. Представлена финальная версия облачного сервиса обработки речевых данных 3i Speech Recognition
 

3i Speech Recognition API

Продукт
Разработчики: 3i Technologies
Дата премьеры системы: 2017/02/14
Дата последнего релиза: 2017/07/20
Технологии: ИБ - Биометрическая идентификация,  Средства разработки приложений

Содержание

На 14 февраля 2017 года 3i Speech Recognition API — облачный сервис для распознавания речи из медиаконтента и последующей профессиональной обработки.

2017

3i Speech Recognition: финальная версия

20 июля консорциум 3i Technologies объявил о завершении формирования функционала облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition, предназначенного для работы с медиаконтентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить «речь» в текстовый формат, параллельно редактируя его в пользовательском интерфейсе.

На финальной стадии 3i Speech Recognition дополнился личным кабинетом, хранилищем и редакторским интерфейсом, в котором можно обрабатывать текстовую информацию. Сервис позволяет работать с записями ТВ и радиоэфиров, материалами продакшн-студий, обращениями в контакт-центры и т.д. По словам разработчиков, 3i Speech Recognition дает возможность загружать в персонализированное облачное хранилище до 18 часов аудиоинформации, обрабатывая ее в несколько раз быстрее реального времени звучания. Затем выдается «стройный» текст, разбитый на предложения с расставленными знаками препинания. При прослушивании исходного материала система автоматически «подсвечивает» произносимый фрагмент в текстовом блоке.

В целом, по словам председателя совета директоров консорциума 3i Technologies Алексея Любимова, сервис ориентирован на специалистов, работающих с голосовой информацией и будет полезен службам контроля качества в контакт-центрах или консультантам, создающим сценарии телемаркетинговых акций, а также подразделениям телеканалов, которые занимаются расшифровкой телеэфиров.

Сервис отличают высокая точность распознавания речи, автоматическая расстановка знаков препинания, удобный редакторский интерфейс и возможность интеграции с наиболее распространенными программными платформами автоматизации совместной деятельности рабочих групп.

В 3i Speech Recognition используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев.

Сервис поддерживает русский, английский, китайский, немецкий и испанский языки. Кроме того, в 3i Speech Recognition может быть интегрирован сервис машинного перевода.

Тестовая версия сервиса доступна по ссылке.

Представлена бета-версия 3i Speech Recognition

14 февраля пресс-служба консорциума 3i Technologies сообщила о разработке облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition API. Сервис с точностью более 90% переводит теле- и радиоэфиры, медиа-архивы ТВ-каналов и радиостанций в текстовый формат.

3i Speech Recognition API работает с аудио и видео любой длительности, обрабатывает загруженные в облако файлы в несколько раз быстрее реального времени звучания и формирует на выходе текст, разбитый на предложения, включая знаки препинания.

Осциллограмма звука, (2015)

Бета-версия 3i Speech Recognition API открыта для публичного тестирования.

«
Это специализированный сервис, ориентированный на обработку именно телевизионного или радио-контента. Мы разработали уникальные модели, которые позволили добиться очень высокой точности распознавания. Надеемся, что сервис будет полезен профессионалам, которые работают с медиа-контентом. В дальнейшем он может стать частью высокотехнологичных решений для массового потребителя, например, основой для перевода иностранных каналов и субтитрирования в режиме реального времени. Все технологии для создания такого продукта у компаний, входящих в консорциум, уже есть.

Алексей Любимов, председатель совета директоров консорциума 3i Technologies
»

В сервисе используются языковые и акустические модели, созданные с использованием машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована на основе GPU, что дает многократный прирост производительности, в сравнении с CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область, например, для перевода в текст «экономических» или «отраслевых» передач, в которых спикеры используют профессиональную лексику.

Бета-версия 3i Speech Recognition поддерживает русский и английский язык. По мнению создателей сервиса, 3i Speech Recognition будет полезен для разработчиков программного обеспечения, системных интеграторов, специалистов в области создания и обработки медиаконтента (телерадиовещательные компании, продакшн-студии, креативные агентства, фрилансеры и т.д.).