NLab Speech TTS

Продукт

Название базовой системы (платформы):	Наносемантика NLab Speech
Разработчики:	Наносемантика (Nanosemantics Lab)
Дата последнего релиза:	2022/09/15
Технологии:	Речевые технологии

Содержание

2023
- В основе голосовой модели Левитана
- Как разработать чат-бота на основе современной диалоговой платформы
2022

Основные статьи:

NLab Speech TTS - технология синтеза речи.

2023

В основе голосовой модели Левитана

Разработчик нейросетевых решений «Наносемантика» в год 110-летия со дня рождения знаменитого советского диктора Юрия Левитана представит синтез его голоса. К юбилею человека, чей голос объявлял по Всесоюзному радио о победе в Великой Отечественной войне, компания представит голосовую модель, созданную на базе платформы NLab TTS и обученную на редких записях, из архива Левитана. Подробнее здесь.

Как разработать чат-бота на основе современной диалоговой платформы

Для создания полноценного виртуального помощника нужно серьезно подойти к поиску платформы, позволяющей компаниям самостоятельно делать ботов под свои потребности. Российский разработчик ИИ-технологий компания «Наносемантика» на примере собственного продукта DialogOS рассказывает, какие возможности должна предоставлять клиенту среда разработки и обучения ботов. Подробнее здесь.

2022

Обновление словарей NLab Speech TTS

«Наносемантика» непрерывно оптимизирует технологию синтеза речи NLab Speech TTS, регулярно обновляя словари, экспериментируя с параметрами голосовых моделей и средствами обработки сигнала.

Чтобы понять клиента и ответить ему, голосовой помощник должен обладать хорошим словарным запасом. Специалисты «Наносемантики» постоянно отслеживают лексические единицы, которые часто употребляются в медийном пространстве, профессиональных сообществах и речи простых людей. Их добавляют в датасеты, используемые для обучения голосовой модели. Часто бывает, что NLab Speech TTS «узнает» неологизмы раньше, чем их фиксируют лексикографы.

В 2022 году в орфографический словарь ИРЯ им. В.В. Виноградова РАН вошло 151 слово, например: стендап, кроссфит, джетлаг, стобалльник, прокрастинация. И голосовой помощник Наташа (обученная голосовая модель, в основе которой - NLab Speech TTS) уже знает все эти слова и умеет правильно произносить, сообщили 15 сентября 2022 года представители «Наносемантики».

«Наносемантика» работает и над другими аспектами синтеза речи, а также интеллектуальными функциями помощников. Ведь «живой» голос автоматического собеседника и его способность самостоятельно отвечать на нестандартные вопросы может повысить лояльность клиентов в 2-3 раза, подчеркнули в компании.

Чтобы улучшить качество датасетов и расширить возможности кастомизации, «Наносемантика» расширяет пул дикторов: собирает речь известных людей, мужские и женские голоса. Для естественного звучания речи и правильного интонирования на русском и английском языке компания работает со средствами синтеза и обработки речевого сигнала: вокодерами, фонетизаторами, нормализаторами, постпроцессингом.

Аналитики ожидают, что к 2024 году количество голосовых устройств сравняется с населением Земли. По заявлению представителей «Наносемантики», компания работает над тем, чтобы искусственные голоса звучали естественно, мелодично и грамотно.

Как работает NLab Speech TTS

Обучение голосовой модели: для разработки и запуска технологии синтеза речи «Наносемантикой» были обучены две голосовые модели (Наташа и Артём), используя для этого нейронные сети.
Поэтапный процесс синтеза речи:
- Сначала NLP-препроцессор отвечает за подготовку данных и используется в ситуациях когда, например, необходимо расставить ударения, «е/ё» и так далее. Этот процесс осуществляется автоматически с помощью словарей и нейронных сетей;
- Движок переводит текст в мелспектограммы;
- Вокодер переводит мелспектограммы в голос (для каждого диктора обучается обучается своя модель);
- Постобработка — корректируется скорость, тон и громкость синтезируемого аудио.