3i Speech Recognition API

Продукт
Разработчики: 3iTech (ранее 3i Technologies)
Дата премьеры системы: 2017/02/14
Дата последнего релиза: 2017/07/20
Технологии: ИБ - Биометрическая идентификация,  Речевые технологии,  Средства разработки приложений

Содержание

3i Speech Recognition API — облачный сервис для распознавания речи из медиаконтента и последующей профессиональной обработки.

2017

3i Speech Recognition: финальная версия

20 июля 2017 года консорциум 3i Technologies объявил о завершении формирования функционала облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition, предназначенного для работы с медиаконтентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить «речь» в текстовый формат, параллельно редактируя его в пользовательском интерфейсе.

На финальной стадии 3i Speech Recognition дополнился личным кабинетом, хранилищем и редакторским интерфейсом, в котором можно обрабатывать текстовую информацию. Сервис позволяет работать с записями ТВ и радиоэфиров, материалами продакшн-студий, обращениями в контакт-центры и т.д. По словам разработчиков, 3i Speech Recognition дает возможность загружать в персонализированное облачное хранилище до 18 часов аудиоинформации, обрабатывая ее в несколько раз быстрее реального времени звучания. Затем выдается «стройный» текст, разбитый на предложения с расставленными знаками препинания. При прослушивании исходного материала система автоматически «подсвечивает» произносимый фрагмент в текстовом блоке.

В целом, по словам председателя совета директоров консорциума 3i Technologies Алексея Любимова, сервис ориентирован на специалистов, работающих с голосовой информацией и будет полезен службам контроля качества в контакт-центрах или консультантам, создающим сценарии телемаркетинговых акций, а также подразделениям телеканалов, которые занимаются расшифровкой телеэфиров.

Сервис отличают высокая точность распознавания речи, автоматическая расстановка знаков препинания, удобный редакторский интерфейс, который позволяет вносить правки в распознанный текст, и возможность интеграции с наиболее распространенными программными платформами автоматизации совместной деятельности рабочих групп.

В 3i Speech Recognition используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев.

Сервис поддерживает русский, английский, китайский, немецкий и испанский языки. Кроме того, в 3i Speech Recognition может быть интегрирован сервис машинного перевода.

Тестовая версия сервиса доступна по ссылке.

Представлена бета-версия 3i Speech Recognition

14 февраля пресс-служба консорциума 3i Technologies сообщила о разработке облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition API. Сервис с точностью более 90% переводит теле- и радиоэфиры, медиа-архивы ТВ-каналов и радиостанций в текстовый формат.

3i Speech Recognition API работает с аудио и видео любой длительности, обрабатывает загруженные в облако файлы в несколько раз быстрее реального времени звучания и формирует на выходе текст, разбитый на предложения, включая знаки препинания.

Осциллограмма звука, (2015)

Бета-версия 3i Speech Recognition API открыта для публичного тестирования.

«
Это специализированный сервис, ориентированный на обработку именно телевизионного или радио-контента. Мы разработали уникальные модели, которые позволили добиться очень высокой точности распознавания. Надеемся, что сервис будет полезен профессионалам, которые работают с медиа-контентом. В дальнейшем он может стать частью высокотехнологичных решений для массового потребителя, например, основой для перевода иностранных каналов и субтитрирования в режиме реального времени. Все технологии для создания такого продукта у компаний, входящих в консорциум, уже есть.

Алексей Любимов, председатель совета директоров консорциума 3i Technologies
»

В сервисе используются языковые и акустические модели, созданные с использованием машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована на основе GPU, что дает многократный прирост производительности, в сравнении с CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область, например, для перевода в текст «экономических» или «отраслевых» передач, в которых спикеры используют профессиональную лексику.

Бета-версия 3i Speech Recognition поддерживает русский и английский язык. По мнению создателей сервиса, 3i Speech Recognition будет полезен для разработчиков программного обеспечения, системных интеграторов, специалистов в области создания и обработки медиаконтента (телерадиовещательные компании, продакшн-студии, креативные агентства, фрилансеры и т.д.).



РЕШЕНИЕ НА БАЗЕ (1) СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Биолинк Солюшенс (BioLink Solutions) (134)
  Прософт Биометрикс (ProSoft Biometrics) (74)
  Индид, Indeed (ранее Indeed ID) (45)
  VisionLabs (ВижнЛабс) (34)
  Группа компаний ЦРТ (Центр речевых технологий) (31)
  Другие (454)

  Прософт Биометрикс (ProSoft Biometrics) (11)
  VisionLabs (ВижнЛабс) (7)
  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Талмер (Talmer) (4)
  РекФэйсис (4)
  Другие (52)

  Индид, Indeed (ранее Indeed ID) (6)
  VisionLabs (ВижнЛабс) (2)
  ВидеоМатрикс (Videomatrix) (2)
  Goodt (Гудт) (2)
  NDBC - ЭнДиБиСи (ранее НТТ ДАТА Бизнес Солюшнс, itelligence Россия, Ителлидженс) (2)
  Другие (21)

  Сбербанк (7)
  Индид, Indeed (ранее Indeed ID) (7)
  Сканпорт АйДи (Scanport) (6)
  VisionLabs (ВижнЛабс) (4)
  ОКТРОН (3)
  Другие (15)

  Сбербанк (6)
  Сканпорт АйДи (Scanport) (2)
  Индид, Indeed (ранее Indeed ID) (1)
  ОКТРОН (1)
  САТЕЛ (1)
  Другие (7)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Биолинк Солюшенс (BioLink Solutions) (9, 140)
  Прософт Биометрикс (ProSoft Biometrics) (18, 84)
  VisionLabs (ВижнЛабс) (26, 50)
  Индид, Indeed (ранее Indeed ID) (1, 45)
  Группа компаний ЦРТ (Центр речевых технологий) (14, 39)
  Другие (361, 308)

  Прософт Биометрикс (ProSoft Biometrics) (7, 11)
  VisionLabs (ВижнЛабс) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (2, 6)
  РекФэйсис (2, 4)
  Ростелеком (4, 3)
  Другие (23, 31)

  Индид, Indeed (ранее Indeed ID) (1, 6)
  Goodt (Гудт) (1, 3)
  ABC Solutions (Эй Би Си Солюшенс) (1, 3)
  VisionLabs (ВижнЛабс) (2, 2)
  ВидеоМатрикс (Videomatrix) (1, 2)
  Другие (9, 9)

  Сбербанк (3, 8)
  Индид, Indeed (ранее Indeed ID) (1, 7)
  VisionLabs (ВижнЛабс) (3, 6)
  Shenzhen Chainway Information Technology (1, 6)
  АйТи Бастион (1, 3)
  Другие (6, 6)

  Сбербанк (1, 5)
  Shenzhen Chainway Information Technology (1, 2)
  Goodt (Гудт) (1, 1)
  Voca-Tech (Вока-Тек) (1, 1)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
  Другие (3, 3)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  BioLink BioTime - 177 (123, 54)
  Indeed Access Manager (Indeed AM) - 45 (45, 0)
  VisionLabs Luna - 40 (24, 16)
  Biosmart Studio - 36 (36, 0)
  СКУД BioSmart - 27 (27, 0)
  Другие 293

  VisionLabs Luna - 10 (5, 5)
  BioSmart PV‑WTC Терминал - 4 (4, 0)
  Biosmart Studio - 4 (4, 0)
  Voice2Med Система распознавания речи в медицине - 4 (4, 0)
  Hikvision HikCentral - 3 (3, 0)
  Другие 32

  Indeed Access Manager (Indeed AM) - 6 (6, 0)
  Goodt (Ранее ZoZo RCAM, Revenue&Costs Assurance Management) - 3 (3, 0)
  VisionLabs Luna - 2 (1, 1)
  Vmx SILA: HSE - 2 (2, 0)
  Smart Meal Service: Lunch fastPass Робот-кассир - 1 (1, 0)
  Другие 5

  Indeed Access Manager (Indeed AM) - 7 (7, 0)
  Shenzhen Chainway C-серия RFID-считывателей - 6 (6, 0)
  Сбербанк: Система оплаты по улыбке - 5 (5, 0)
  VisionLabs Luna - 4 (2, 2)
  АйТи Бастион: СКДПУ НТ Система контроля действий поставщиков ИТ-услуг - 3 (3, 0)
  Другие 4

  Сбербанк: Система оплаты по улыбке - 5 (5, 0)
  Shenzhen Chainway C-серия RFID-считывателей - 2 (2, 0)
  Voca Tech: Система автоматизированного контроля сотрудников для выполнения стандартов обслуживания - 1 (1, 0)
  Goodt (Ранее ZoZo RCAM, Revenue&Costs Assurance Management) - 1 (1, 0)
  ЦРТ: Визирь - 1 (1, 0)
  Другие 1

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (46)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
  Форсайт (11)
  Бипиум (Bpium) (10)
  Axiom JDK (БеллСофт) ранее Bellsoft (10)
  Другие (389)

  Солар (ранее Ростелеком-Солар) (8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
  Консом групп, Konsom Group (КонсОМ СКС) (2)
  ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
  IFellow (АйФэлл) (2)
  Другие (30)

  Солар (ранее Ростелеком-Солар) (10)
  Форсайт (3)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  КРИТ (KRIT) (2)
  Cloud.ru (Облачные технологии) ранее SberCloud (2)
  Другие (13)

  Солар (ранее Ростелеком-Солар) (6)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  РЖД-Технологии (3)
  Robin (Робин) (3)
  Другие (23)

  Солар (ранее Ростелеком-Солар) (3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Нота (Холдинг Т1) (1)
  Оператор Газпром ИД (ГИД) (1)
  Другие (9)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Солар (ранее Ростелеком-Солар) (2, 48)
  Microsoft (41, 47)
  Oracle (49, 26)
  Hyperledger (Open Ledger Project) (1, 23)
  IBM (33, 18)
  Другие (595, 304)

  Солар (ранее Ростелеком-Солар) (1, 8)
  Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
  Microsoft (4, 3)
  Oracle (2, 3)
  SAP SE (2, 2)
  Другие (16, 19)

  Солар (ранее Ростелеком-Солар) (1, 11)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
  Форсайт (1, 3)
  Сбербанк (1, 2)
  Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
  Другие (9, 9)

  Солар (ранее Ростелеком-Солар) (1, 6)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
  Мобильные ТелеСистемы (МТС) (1, 4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
  Форсайт (1, 3)
  Другие (14, 24)

  Мобильные ТелеСистемы (МТС) (2, 3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
  Солар (ранее Ростелеком-Солар) (1, 3)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
  Гриндата (GreenData) (1, 1)
  Другие (12, 12)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Solar appScreener (ранее Solar inCode) - 48 (48, 0)
  Hyperledger Fabric - 23 (23, 0)
  Windows Azure - 20 (20, 0)
  FIS Platform - 15 (15, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 12 (12, 0)
  Другие 311

  Solar appScreener (ранее Solar inCode) - 8 (8, 0)
  FIS Platform - 4 (4, 0)
  Парадокс: MES Builder - 2 (2, 0)
  Java - 2 (2, 0)
  Siemens Xcelerator - 2 (2, 0)
  Другие 21

  Solar appScreener (ранее Solar inCode) - 11 (11, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  BSS Digital2Go - 3 (3, 0)
  Cloud ML Space - 2 (2, 0)
  Турбо X - 1 (1, 0)
  Другие 7

  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  Solar appScreener (ранее Solar inCode) - 6 (6, 0)
  МТС Exolve - 4 (4, 0)
  РЖД и Робин: Облачная фабрика программных роботов - 3 (3, 0)
  Форсайт. Мобильная платформа (ранее HyperHive) - 3 (3, 0)
  Другие 12

  EXpress Защищенный корпоративный мессенджер - 3 (3, 0)
  Solar appScreener (ранее Solar inCode) - 3 (3, 0)
  МТС Exolve - 2 (2, 0)
  ФинПлатформа Т1 - 1 (1, 0)
  Axiom JDK (ранее Liberica JDK до 2022) - 1 (1, 0)
  Другие 8