Заказчики: Usachev Show Подрядчики: Наносемантика (Nanosemantics Lab) Продукт: NLab Speech TTSНа базе: Наносемантика NLab Speech Дата проекта: 2023/09 — 2024/03
|
Технология: Речевые технологии
|
2024: Синтез голоса блогера Руслана Усачева
«Наносемантика» 9 апреля 2024 года объявила о завершении проекта синтеза голоса известного российского блогера Руслана Усачева. В результате проекта команда блогера сможет производить синтезированный аудиоконтент для размещения на своих информационных площадках.
Руслан Усáчев – один из русскоязычных видеоблогеров. Его по праву можно считать одним из первопроходцев русского Youtube: свои первые блоги он записал еще в марте 2010 года. Руслан является ведущим и сценаристом собственного тревел-шоу и новостного дайджеста Usachev Show, а также шоураннером проекта «КликКлак».
Производство контента для видеоблогов и аудиоподкастов – трудоемкий процесс, требующий тщательной проработки сценария, записи, монтажа аудио- или видеоматериалов. Синтез речи может помочь в этом. Вместо того чтобы записывать ролики в студии, блогеры могут использовать искусственный интеллект (ИИ) в качестве помощника для преобразования текстовых скриптов в аудиофайлы. Так можно существенно ускорить производство контента, а свободное время посвящать другим задачам.
Несмотря на явные плюсы, блогеры могут столкнуться с рядом трудностей. Для качественного синтеза речи нужно решить ряд задач: система должна обучиться тембру голоса конкретного человека и тонкостям произношения, особенно при работе со сложными терминами или профессиональной лексикой.
Голосовая модель Руслана Усачева разработана на базе платформы «Наносемантики» NLab Speech TTS (Text-to-Speech), которая позволяет создать точную копию голоса медийного человека. Платформа специализируется на синтезировании голоса из текстового формата и применяется в различных сферах, в том числе для генерации контента для обучения и развлечения. С помощью NLab Speech TTS можно решить ряд проблем, связанных с синтезированием голоса, таких как склейки, разные уровни шумов и интонации, разная скорость речи, покашливания и др.
Перед разработчиками стояла задача синтезировать оригинальный тембр голоса с особенностями произношения Руслана Усачева. Для обучения модели были использованы 10 часов записи с Youtube-канала блогера. А для тонкой настройки различных нюансов потребовалось еще 10 часов записей чистого голоса заказчика. В процессе разработчики столкнулись с проблемой отображения голосовой дорожки синтезированной записи при публикации в Telegram, впоследствии решив эту задачу с помощью конвертации в подходящий формат файла.
В результате проекта был создан голосовой бот, генерирующий аудиосообщения голосом Руслана Усачева. Доступ к боту имеет заказчик и его команда редакторов, которые приступят с его помощью к производству аудиоконтента для размещения на собственных и, возможно, сторонних площадках.
Собственный голосовой бот – ценный инструмент, который поможет мне как в решении повседневных задач генерации контента, так и в проектах, на которые мне физически не хватало времени. Помимо автоматической записи подкастов и аудиоинтервью, теперь я смогу легко и просто создавать аудиокниги или озвучивать обучающие курсы. Голосовой бот также может стать помощником в коллаборации с модными брендами или в продвижении собственной продукции из моего интернет-магазина, – подчеркнул Руслан Усачев. |
Работа над каждым новым проектом создания точной копии голоса медийного человека – вдохновляющий опыт. Бот с голосом Руслана Усачева – это очень гибкая модель, настройку и доработку которой мы можем проводить согласно задачам заказчика. Так, например, в перспективе возможна доработка модели с целью записи голоса на иностранных языках для работы с многоязычной аудиторией, - прокомментировал Илья Иванов, коммерческий директор компании «Наносемантика». |