RHVoice Система синтеза речи

Продукт
Дата последнего релиза: 2022/04/11
Технологии: Речевые технологии

Основные статьи:

RHVoice - это бесплатный многоязычный синтезатор речи с открытым исходным кодом.Boston Scientific отзывает бракованные сосудистые устройства, из-за которых люди умирают

2022: RHVoice 1.8.0

11 апреля 2022 года стало известно, что состоялся выпуск открытой системы синтеза речи RHVoice 1.8.0, изначально развивавшейся для обеспечения поддержки русского языка, но затем адаптированной и для других языков, включая английский, португальский, украинский, киргизский, татарский и грузинский. Код написан на C++ и распространяется под лицензией LGPL 2.1. Поддерживается работа в GNU/Linux, Windows и Android. Программа совместима с типовыми TTS-интерфейсами (text-to-speech) для преобразования текста в речь: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) и Android Text-To-Speech API, но также может использоваться в экранном ридере NVDA. Создателем и основным разработчиком RHVoice является Ольга Яковлева, которая развивает проект несмотря на полную слепоту.

Иллюстрация: selectel.ru

В версии 1.8.0 для платформы Android предложена оптимизированная система управления голосовыми и языковыми данными, позволяющая загружать обновления голосовых данных без обновления мобильного приложения. Проверка появления обновлений данных для добавленных голосов и языков производится автоматически. Кроме того, в представленном выпуске реализована поддержка польского языка и добавлен голос для македонского языка. Обеспечена совместимость со свежими альфа- и бета-выпусками экранного ридера NVDA. Устранены проблемы со сборкой на платформе Linux, возникавшие при отсутствии Speech Dispatcher.

В RHVoice применяются наработки проекта HTS (HMM/DNN-based Speech Synthesis System) и параметрический метод синтеза со статистическими моделями (Statistical Parametric Synthesis на базе HMM - Hidden Markov Model). Плюсом статистической модели являются низкие накладные расходы и нетребовательность к мощности CPU. Все операции выполняются локально на системе пользователя. Поддерживается три уровня качества речи (чем ниже качество - тем выше производительность и меньше время реакции).

Минусом статистической модели является относительно низкое качество произношения, которое не достигает уровня синтезаторов, генерирующих речь на основе комбинации фрагментов естественной речи, но тем не менее результат вполне разборчив и напоминает трансляцию записи с громкоговорителя. Для сравнения, проект Silero, предоставляющий открытый движок для синтеза речи на основе технологий машинного обучения и набор моделей для русского языка, по качеству превосходит RHVoice.

Для русского языка доступно 14 вариантов голосов, для английского - 6. Голоса формируются на основе записей естественной речи. В настройках можно изменять скорость, высоту и громкость. Для изменения темпа может применяться библиотека Sonic. Возможно автоматическое определение и переключение языка на основе анализа входного текста (например, для слов и цитат на другом языке может использоваться родная для данного языка модель синтеза). Поддерживаются голосовые профили, определяющие сочетания голосов для разных языков.[1]

Примечания



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (25)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (14)
  Другие (167)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  SteadyControl (4)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  Naumen (Наумен консалтинг) (2)
  Neuro.net (Нейро) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Naumen (Наумен консалтинг) (3)
  SteadyControl (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (23)

  SteadyControl (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  Яндекс (Yandex) (2)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1)
  Другие (11)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 27)
  SteadyControl HoReCa (1, 23)
  SteadyControl (1, 23)
  Другие (317, 179)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (15, 23)

  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 4)
  Яндекс (Yandex) (1, 3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (11, 12)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ Голосовой бот - 28 (4, 24)
  SteadyControl Система контроля и управления персоналом - 23 (23, 0)
  BSS Digital2Speech - 20 (20, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  Naumen Erudite - 12 (12, 0)
  Другие 125

  BSS Digital2Speech - 5 (5, 0)
  SteadyControl Система контроля и управления персоналом - 4 (4, 0)
  Voice2Med Система распознавания речи в медицине - 4 (4, 0)
  МТТ Голосовой бот - 2 (0, 2)
  Neuro.net Голосовой робот - 2 (2, 0)
  Другие 8

  МТТ Голосовой бот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие -1

  МТТ Голосовой бот - 9 (0, 9)
  BSS Digital2Speech - 7 (7, 0)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 9

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  YandexGPT (YaLM 2.0) - 3 (3, 0)
  BSS: Виртуальный голосовой ассистент - 2 (2, 0)
  BSS Digital2Speech - 2 (2, 0)
  СберБизнесБот - 1 (1, 0)
  Другие 8