Google Translatotron (ПО для перевода устной речи)

Продукт
Разработчики: Google
Дата премьеры системы: май 2019 г
Дата последнего релиза: 2021/08/09
Отрасли: Интернет-сервисы
Технологии: Речевые технологии,  Офисные приложения

Содержание

2021: Представление Translatotron 2

Google представила систему Translatotron 2, в которой решила проблему злоупотреблений путем сохранения оригинального голоса. Об этом стало известно 9 августа 2021 года.

Translatotron не просто переводил речь в режиме реального времени, а трансформировал голос говорящего таким образом, чтобы произносимые им слова на одном языке звучали на другом. Однако, несмотря на очевидные плюсы подобной технологии, у нее есть существенный недостаток. Поскольку система способна генерировать речь, сказанную разными голосами, ее могут использовать мошенники, в том числе для создания дипфейков.

Теперь Google представила систему Translatotron 2, в которой решила проблему возможных злоупотреблений путем сохранения оригинального голоса говорящего (голос перевода при этом отличается от голоса говорящего). Качество перевода и натуральное звучание речи также было улучшено благодаря уменьшению числа нежелательных помех, таких как невнятная речь и слишком длинные паузы между фразами. Кроме того, производительность Translatotron 2 намного выше по сравнению с оригинальной системой.

По словам специалистов, за последние несколько лет технологии преобразования голоса приобрели большую популярность. Эти технологии работают так эффективно, что даже автоматизированные системы не всегда могут отличить «живую» речь от модифицированной. В связи с этим необходимо сделать так, чтобы их нельзя было использовать во вред. Создатели Translation 2 надеются, что в случае успеха их проект может стать потенциальным прорывом в этой области[1].

2019: Анонс

15 мая 2019 года Google представила инструмент для синхронного перевода устной речи с одного языка на другой. Технология получила название Translatotron.

Важной особенностью разработки стало то, что она позволяет переводить разговоры с сохранением голоса и интонации говорящего. При этом конвертация голоса в текст и обратно не производится, как в случае с «Google.Переводчиком». Translatotron пропускает этот этап и работает напрямую со звуком — система создаёт «слепок» исходной речи и преобразует её.

Архитектура Google Translatotron

Представленная Google нейросеть принимает спектрограмму — визуальное представленияечастот — исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл. Такой метод позволяет существенно ускорить перевод устной речи, но к середине мая 2019 года точность ещё далека от совершенства.

«
Хотя наши результаты отстают от обычной каскадной системы, мы продемонстрировали возможность сквозного прямого преобразования речи в речь, — говорится на сайте Google.
»

При этом, по словам разработчиков, Translatotron обеспечивает более точный перевод, чем базовая каскадная модель, а также лучше обрабатывает имена собственные.

Синтезированный голос, правда, звучит несколько роботизированно, но схожесть с оригиналом все же большая. Прослушать образцы машинного перевода можно в блоге Google.[2]

Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык.

Translatotron может улучшить голосового помощника Google Assistant, который в мае 2019 года стал работать в 10 раз быстрее благодаря тому, что компания сократила рекуррентные нейронные сети и перенесла обработку речи на устройства.

Примечания



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Softline (Софтлайн) (176)
  МойОфис (ООО Новые облачные технологии) (79)
  Синтеллект (Syntellect) (76)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (52)
  Wone IT (ранее SoftwareONE Россия, СофтвэрУАН и Awara IT Russia, Авара Ай Ти Солюшенс) (36)
  Другие (908)

  Синтеллект (Syntellect) (52)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (14)
  Almi Partner, Алми партнер (ГК Алми) (9)
  Softline (Софтлайн) (9)
  CommuniGate Systems (СталкерСофт) (5)
  Другие (82)

  Датапакс (11)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (9)
  CommuniGate Systems (СталкерСофт) (5)
  Qsoft (Кьюсофт) (4)
  МойОфис (ООО Новые облачные технологии) (4)
  Другие (55)

  Cloud4Y (ООО Флекс) (8)
  Корус Консалтинг (8)
  Qsoft (Кьюсофт) (7)
  Датапакс (6)
  Яндекс (Yandex) (6)
  Другие (58)

  СКБ Контур (4)
  Softline (Софтлайн) (3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (3)
  Корус Консалтинг (3)
  Fingers Media (2)
  Другие (27)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft (61, 476)
  МойОфис (ООО Новые облачные технологии) (12, 89)
  Синтеллект (Syntellect) (2, 77)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (2, 64)
  СБК (Система безопасных коммуникаций) (2, 41)
  Другие (620, 476)

  Синтеллект (Syntellect) (2, 52)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 18)
  Microsoft (6, 15)
  СБК (Система безопасных коммуникаций) (1, 11)
  The Document Foundation (2, 10)
  Другие (32, 48)

  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 9)
  СБК (Система безопасных коммуникаций) (1, 9)
  МойОфис (ООО Новые облачные технологии) (2, 5)
  Qsoft (Кьюсофт) (1, 4)
  Тест АйТи (Test IT) (1, 3)
  Другие (17, 19)

  МойОфис (ООО Новые облачные технологии) (1, 8)
  Корус Консалтинг (1, 8)
  Qsoft (Кьюсофт) (1, 7)
  Яндекс (Yandex) (1, 7)
  Cloud4Y (ООО Флекс) (1, 7)
  Другие (21, 40)

  СКБ Контур (1, 4)
  РуПост (3, 3)
  VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 3)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
  Другие (15, 18)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft Office - 189 (58, 131)
  Microsoft 365 (ранее Office 365) - 131 (127, 4)
  Новые облачные технологии: МойОфис - 94 (73, 21)
  Skype for Business (ранее Microsoft Lync) - 68 (67, 1)
  Р7-Офис - 64 (64, 0)
  Другие 421

  Syntellect Tessa Мобильное согласование - 30 (30, 0)
  Syntellect Tessa Графический визуализатор процессов - 28 (28, 0)
  Р7-Офис - 18 (18, 0)
  CommuniGate Pro - 11 (11, 0)
  LibreOffice - 9 (0, 9)
  Другие 36

  Р7-Офис - 9 (9, 0)
  CommuniGate Pro - 9 (9, 0)
  Новые облачные технологии: МойОфис - 6 (5, 1)
  Qsoft Teamly Система управления знаниями - 4 (4, 0)
  Test IT TMS (Test Management System) - 3 (3, 0)
  Другие 16

  Новые облачные технологии: МойОфис - 8 (8, 0)
  Корус Консалтинг: K-Team - 8 (8, 0)
  Qsoft Teamly Система управления знаниями - 7 (7, 0)
  Яндекс 360 (ранее Почта 360) - 7 (7, 0)
  Microsoft Hosted Exchange - 7 (0, 7)
  Другие 30

  Контур.Толк - 4 (4, 0)
  Р7-Офис - 3 (3, 0)
  EXpress Защищенный корпоративный мессенджер - 3 (3, 0)
  Корус Консалтинг: K-Team - 3 (3, 0)
  RuPost Система управления корпоративной почтой - 2 (2, 0)
  Другие 15

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (191)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  3iTech (ранее 3i Technologies) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Naumen (Наумен консалтинг) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3)
  Robovoice (Робовойс) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Другие (26)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl HoReCa (1, 23)
  SteadyControl (1, 23)
  Другие (353, 210)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl (1, 4)
  SteadyControl HoReCa (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Naumen (Наумен консалтинг) (1, 3)
  SteadyControl (1, 3)
  SteadyControl HoReCa (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl (1, 7)
  SteadyControl HoReCa (1, 7)
  Другие (17, 29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  СалютДевайсы (ранее SberDevices) (2, 4)
  Сбербанк (2, 4)
  Другие (20, 33)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТС Exolve Голосовой робот - 29 (5, 24)
  SteadyControl Система контроля и управления персоналом - 23 (23, 0)
  BSS Digital2Speech - 21 (21, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  Naumen Erudite - 13 (13, 0)
  Другие 146

  BSS Digital2Speech - 5 (5, 0)
  SteadyControl Система контроля и управления персоналом - 4 (4, 0)
  Voice2Med Система распознавания речи в медицине - 4 (4, 0)
  МТС Exolve Голосовой робот - 2 (0, 2)
  Neuro.net Голосовой робот - 2 (2, 0)
  Другие 8

  МТС Exolve Голосовой робот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие 0

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  BSS Digital2Speech - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 12

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  BSS: Виртуальный голосовой ассистент - 3 (3, 0)
  Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
  EXpress Защищенный корпоративный мессенджер - 3 (3, 0)
  Другие 23