Название базовой системы (платформы): | Наносемантика NLab Speech |
Разработчики: | Наносемантика (Nanosemantics Lab) |
Дата последнего релиза: | 2022/09/15 |
Технологии: | Речевые технологии |
Содержание |
Основные статьи:
- Синтез речи
- Распознавание речи (технологии, рынок)
- Речевые технологии: на пути от распознавания к пониманию
NLab Speech TTS - технология синтеза речи.
2023
В основе голосовой модели Левитана
Разработчик нейросетевых решений «Наносемантика» в год 110-летия со дня рождения знаменитого советского диктора Юрия Левитана представит синтез его голоса. К юбилею человека, чей голос объявлял по Всесоюзному радио о победе в Великой Отечественной войне, компания представит голосовую модель, созданную на базе платформы NLab TTS и обученную на редких записях, из архива Левитана. Подробнее здесь.
Как разработать чат-бота на основе современной диалоговой платформы
Для создания полноценного виртуального помощника нужно серьезно подойти к поиску платформы, позволяющей компаниям самостоятельно делать ботов под свои потребности. Российский разработчик ИИ-технологий компания «Наносемантика» на примере собственного продукта DialogOS рассказывает, какие возможности должна предоставлять клиенту среда разработки и обучения ботов. Подробнее здесь.
2022
Обновление словарей NLab Speech TTS
«Наносемантика» непрерывно оптимизирует технологию синтеза речи NLab Speech TTS, регулярно обновляя словари, экспериментируя с параметрами голосовых моделей и средствами обработки сигнала.
Чтобы понять клиента и ответить ему, голосовой помощник должен обладать хорошим словарным запасом. Специалисты «Наносемантики» постоянно отслеживают лексические единицы, которые часто употребляются в медийном пространстве, профессиональных сообществах и речи простых людей. Их добавляют в датасеты, используемые для обучения голосовой модели. Часто бывает, что NLab Speech TTS «узнает» неологизмы раньше, чем их фиксируют лексикографы.
В 2022 году в орфографический словарь ИРЯ им. В.В. Виноградова РАН вошло 151 слово, например: стендап, кроссфит, джетлаг, стобалльник, прокрастинация. И голосовой помощник Наташа (обученная голосовая модель, в основе которой - NLab Speech TTS) уже знает все эти слова и умеет правильно произносить, сообщили 15 сентября 2022 года представители «Наносемантики».
«Наносемантика» работает и над другими аспектами синтеза речи, а также интеллектуальными функциями помощников. Ведь «живой» голос автоматического собеседника и его способность самостоятельно отвечать на нестандартные вопросы может повысить лояльность клиентов в 2-3 раза, подчеркнули в компании.
Чтобы улучшить качество датасетов и расширить возможности кастомизации, «Наносемантика» расширяет пул дикторов: собирает речь известных людей, мужские и женские голоса. Для естественного звучания речи и правильного интонирования на русском и английском языке компания работает со средствами синтеза и обработки речевого сигнала: вокодерами, фонетизаторами, нормализаторами, постпроцессингом.
Аналитики ожидают, что к 2024 году количество голосовых устройств сравняется с населением Земли. По заявлению представителей «Наносемантики», компания работает над тем, чтобы искусственные голоса звучали естественно, мелодично и грамотно.
Как работает NLab Speech TTS
- Обучение голосовой модели: для разработки и запуска технологии синтеза речи «Наносемантикой» были обучены две голосовые модели (Наташа и Артём), используя для этого нейронные сети.
- Поэтапный процесс синтеза речи:
- Сначала NLP-препроцессор отвечает за подготовку данных и используется в ситуациях когда, например, необходимо расставить ударения, «е/ё» и так далее. Этот процесс осуществляется автоматически с помощью словарей и нейронных сетей;
- Движок переводит текст в мелспектограммы;
- Вокодер переводит мелспектограммы в голос (для каждого диктора обучается обучается своя модель);
- Постобработка — корректируется скорость, тон и громкость синтезируемого аудио.
(данные на сентябрь 2022г.)
Включение в Реестр отечественного ПО
В марте 2022 года технология NLab Speech ASR была включена в Единый реестр российских программ для электронных вычислительных машин и баз данных. Одновременно с NLab Speech ASR в Единый реестр также была включена NLab Speech TTS.
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (44)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
SteadyControl (18)
Naumen (Наумен консалтинг) (15)
Другие (188)
Группа компаний ЦРТ (Центр речевых технологий) (5)
SteadyControl (4)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
Naumen (Наумен консалтинг) (2)
Neuro.net (Нейро) (2)
Другие (17)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Voice Systems Robotics (VSR, VS Robotics) (3)
Naumen (Наумен консалтинг) (3)
SteadyControl (2)
Другие (14)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
SteadyControl HoReCa (1, 23)
SteadyControl (1, 23)
Другие (347, 207)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SteadyControl HoReCa (1, 4)
SteadyControl (1, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Другие (9, 13)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl HoReCa (1, 3)
Voice Systems Robotics (VSR, VS Robotics) (1, 3)
Naumen (Наумен консалтинг) (1, 3)
Другие (12, 16)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl HoReCa (1, 7)
SteadyControl (1, 7)
Другие (17, 29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl HoReCa (1, 5)
SteadyControl (1, 5)
Ростелеком (2, 4)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 3)
Другие (20, 32)
Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)
МТС Exolve Голосовой робот - 29 (5, 24)
SteadyControl Система контроля и управления персоналом - 23 (23, 0)
BSS Digital2Speech - 21 (21, 0)
Voice2Med Система распознавания речи в медицине - 14 (14, 0)
Naumen Erudite - 13 (13, 0)
Другие 144
BSS Digital2Speech - 5 (5, 0)
SteadyControl Система контроля и управления персоналом - 4 (4, 0)
Voice2Med Система распознавания речи в медицине - 4 (4, 0)
МТС Exolve Голосовой робот - 2 (0, 2)
Neuro.net Голосовой робот - 2 (2, 0)
Другие 8
МТС Exolve Голосовой робот - 12 (1, 11)
BSS Digital2Speech - 6 (6, 0)
Naumen Erudite - 3 (3, 0)
VS Robotics: VS Робот-оператор - 3 (3, 0)
SteadyControl Система контроля и управления персоналом - 3 (3, 0)
Другие -1
МТС Exolve Голосовой робот - 9 (0, 9)
SteadyControl Система контроля и управления персоналом - 7 (7, 0)
BSS Digital2Speech - 6 (6, 0)
EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
SmartLogger II - 4 (4, 0)
Другие 12
SteadyControl Система контроля и управления персоналом - 5 (5, 0)
BSS Digital2Speech - 4 (4, 0)
BSS: Виртуальный голосовой ассистент - 3 (3, 0)
Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
YandexGPT (YaLM 2.0) - 3 (3, 0)
Другие 22