Проект

«Наносемантика» синтезировала голос популярного блогера Руслана Усачева

Заказчики: Usachev Show

Интернет-сервисы

Подрядчики: Наносемантика (Nanosemantics Lab)

Продукт: NLab Speech TTS
На базе: Наносемантика NLab Speech

Дата проекта: 2023/09 — 2024/03

Технология: Речевые технологии

подрядчики - 93
проекты - 299

системы - 368
вендоры - 215

2024: Синтез голоса блогера Руслана Усачева

«Наносемантика» 9 апреля 2024 года объявила о завершении проекта синтеза голоса известного российского блогера Руслана Усачева. В результате проекта команда блогера сможет производить синтезированный аудиоконтент для размещения на своих информационных площадках.

Руслан Усáчев – один из русскоязычных видеоблогеров. Его по праву можно считать одним из первопроходцев русского Youtube: свои первые блоги он записал еще в марте 2010 года. Руслан является ведущим и сценаристом собственного тревел-шоу и новостного дайджеста Usachev Show, а также шоураннером проекта «КликКлак».

Производство контента для видеоблогов и аудиоподкастов – трудоемкий процесс, требующий тщательной проработки сценария, записи, монтажа аудио- или видеоматериалов. Синтез речи может помочь в этом. Вместо того чтобы записывать ролики в студии, блогеры могут использовать искусственный интеллект (ИИ) в качестве помощника для преобразования текстовых скриптов в аудиофайлы. Так можно существенно ускорить производство контента, а свободное время посвящать другим задачам.

Несмотря на явные плюсы, блогеры могут столкнуться с рядом трудностей. Для качественного синтеза речи нужно решить ряд задач: система должна обучиться тембру голоса конкретного человека и тонкостям произношения, особенно при работе со сложными терминами или профессиональной лексикой.

Голосовая модель Руслана Усачева разработана на базе платформы «Наносемантики» NLab Speech TTS (Text-to-Speech), которая позволяет создать точную копию голоса медийного человека. Платформа специализируется на синтезировании голоса из текстового формата и применяется в различных сферах, в том числе для генерации контента для обучения и развлечения. С помощью NLab Speech TTS можно решить ряд проблем, связанных с синтезированием голоса, таких как склейки, разные уровни шумов и интонации, разная скорость речи, покашливания и др.

Перед разработчиками стояла задача синтезировать оригинальный тембр голоса с особенностями произношения Руслана Усачева. Для обучения модели были использованы 10 часов записи с Youtube-канала блогера. А для тонкой настройки различных нюансов потребовалось еще 10 часов записей чистого голоса заказчика. В процессе разработчики столкнулись с проблемой отображения голосовой дорожки синтезированной записи при публикации в Telegram, впоследствии решив эту задачу с помощью конвертации в подходящий формат файла.

В результате проекта был создан голосовой бот, генерирующий аудиосообщения голосом Руслана Усачева. Доступ к боту имеет заказчик и его команда редакторов, которые приступят с его помощью к производству аудиоконтента для размещения на собственных и, возможно, сторонних площадках.

Собственный голосовой бот – ценный инструмент, который поможет мне как в решении повседневных задач генерации контента, так и в проектах, на которые мне физически не хватало времени. Помимо автоматической записи подкастов и аудиоинтервью, теперь я смогу легко и просто создавать аудиокниги или озвучивать обучающие курсы. Голосовой бот также может стать помощником в коллаборации с модными брендами или в продвижении собственной продукции из моего интернет-магазина, – подчеркнул Руслан Усачев.

Работа над каждым новым проектом создания точной копии голоса медийного человека – вдохновляющий опыт. Бот с голосом Руслана Усачева – это очень гибкая модель, настройку и доработку которой мы можем проводить согласно задачам заказчика. Так, например, в перспективе возможна доработка модели с целью записи голоса на иностранных языках для работы с многоязычной аудиторией, - прокомментировал Илья Иванов, коммерческий директор компании «Наносемантика».

Источник — «https://zdrav.expert/index.php/%D0%9F%D1%80%D0%BE%D0%B5%D0%BA%D1%82:Usachev_Show_(NLab_Speech_TTS)»