Сбер SaluteSpeech (SmartSpeech)

Продукт

Название базовой системы (платформы):	Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики:	SberDevices (СалютДевайсы, ранее СберДевайсы)
Дата премьеры системы:	2021/05/14
Дата последнего релиза:	2023/06/07
Технологии:	Речевые технологии

Содержание

2023: Полный доступ для всех
2022
2021
- Доступность в облаке SberCloud
- Запуск сервиса SmartSpeech

Основная статья: Речевые технологии: на пути от распознавания к пониманию

2023: Полный доступ для всех

Сбер 7 июня 2023 года сообщил об открытии полного доступ к своей платформе синтеза и распознавания речи SaluteSpeech для всех. Ранее для коммерческого использования технологии платформы были доступны только юридическим лицам, а частные пользователи могли применять их исключительно для некоммерческих проектов в ограниченном формате.

Тариф Freemium для физических лиц позволит сразу нескольким категориям пользователей решать множество задач, связанных с генерацией речи и её текстовой расшифровкой. С помощью программного интерфейса приложения (API) авторы произведений могут создавать аудиокниги, блогеры — озвучивать контент или, наоборот, превращать аудиозаписи в текст. Например, быстро расшифровать интервью.

Средний и малый бизнес может использовать запущенный тариф для создания мобильных и веб-приложений, делать предзаписи для телефонии, озвучивать презентационные материалы, транскрибировать аудиозаписи встреч и многое другое. У крупного бизнеса появляется возможность удобным и быстрым способом протестировать платформу SaluteSpeech до принятия решения о дальнейшем внедрении речевых технологий в свои бизнес-процессы.

Понимая ценность и востребованность речевых технологий, нашей целью было обеспечить людей быстрым и простым доступом к платформе SaluteSpeech. Теперь все пользователи могут в самые короткие сроки реализовывать любые, в том числе коммерческие проекты, связанные с расшифровкой и генерацией речи,

сказал Денис Афанасьев, директор дивизиона В2В-продуктов Салют Сбербанка.

С тарифом Freemium пользователи получат доступ к 100 минутам распознавания аудиозаписей и генерации речи на 200 000 символов на месяц. Каждый месяц этот лимит возобновляется. Если пользователь до истечения месячного периода израсходует базовый лимит, он может докупить дополнительные пакеты и продолжить работу с платформой SaluteSpeech. В этом случае стоимость 1000 минут распознавания речи — 1200 рублей, генерация речи на 1 000 000 символов — 1000 рублей.

Продвижением и дистрибуцией решения занимается компания-партнёр SberDevices (ООО «СалютДевайсы»).

2022

Публичный доступ к SaluteSpeech для реализации некоммерческих проектов

Команда SberDevices сделала публичным доступ к своей платформе синтеза и распознавания речи SaluteSpeech для реализации некоммерческих проектов. Ранее получить доступ к платформе могли только юридические лица и индивидуальные предприниматели. Для некоммерческого использования речевых технологий платформы потребуется только регистрация на портале. Об этом сообщила компания Сбербанк 29 ноября 2022 года. Открытый доступ к платформе SaluteSpeech поможет пользователям быстро и эффективно решать множество задач. Студенты могут транскрибировать лекции, блогеры — озвучивать ролики, авторы — создавать аудиокниги.

Также есть сценарии использования публичной версии для бизнеса. Средний и малый бизнес может озвучить презентационные материалы либо транскрибировать аудиозаписи встреч или интервью для последующей работы с текстом. Крупный бизнес получает возможность оперативно протестировать технологию Сбера до принятия решения о дальнейшем сотрудничестве.

Команда очень много выступает на мероприятиях перед студентами и рассказывает им о речевых технологиях, теперь они могут полноценно их протестировать и создать свои первые проекты, которые, уверен, положат начало чему-то большому и важному в будущем. Также это отличный инструмент для людей, у которых возникает бытовая потребность в переводе текста в голос и наоборот. Отмечу, что таких немало. И, конечно, ещё одна важная задача этого проекта дать бизнесу возможность для тестирования платформы SaluteSpeech. Благодаря свободному доступу все желающие в удобный для них момент могут подключиться к платформе и оценить качество работы её технологий,

отметил Денис Афанасьев, директор дивизиона В2В-продуктов Салют SberDevices.

Публичный доступ к платформе доступен только для некоммерческого использования. Распознавание речи в этом формате для физических лиц ограничено 100 минутами в месяц. К примеру, продолжительность одной лекции — 60 минут, а деловая встреча в среднем длится от 40 до 60 минут. Синтезировать можно текст на 200 000 символов в месяц — этого достаточно, чтобы создать небольшую аудиокнигу примерно на 100 страниц.

Доступ к SaluteSpeech для реализации коммерческих проектов исключает эти ограничения. При работе с облачной версией платформы клиент платит по количеству секунд для распознавания речи и по числу символов для её генерации. Если заказчик разворачивает систему в своём контуре (on-prem), он платит за количество лицензий.

Платформа SaluteSpeech позволяет подключать речевые технологии в интерактивном голосовом меню (IVR), автоответчике, чатах, телемаркетинговых компаниях, голосовых интерфейсах взаимодействия, для озвучивания контента и команд или голосового ввода на устройствах и сайтах. Сервисы платформы распознают и синтезируют речь, а также способны воспринимать подсказки, помогающие максимально правильно понимать пользователя в зависимости от конкретной ситуации. Технологии распознавания и синтеза речи можно использовать как вместе, так и по отдельности.

Интеграция с системой речевой аналитики VS Robotics

Технология распознавания речи платформы SaluteSpeech, разработанная командой SberDevices, интегрирована с системой речевой аналитики от VS Robotics, которая повышает эффективность работы с клиентами и увеличивает бизнесу продажи. Об этом сообщила компания Сбербанк 22 ноября 2022 года. Подробнее здесь.

SDK для подключения технологий SmartSpeech в AR- и VR-приложения

Команда SberDevices создала набор программных инструментов (Software Development Kit), который позволяет разработчикам приложений с дополненной или виртуальной реальностью добавлять качественное голосовое управление на русском языке. Решение позволяет без дополнительной разработки подключать в приложения, в том числе работающие с VR-шлемами, технологии распознавания и генерации речи SmartSpeech от SberDevices. Подробнее здесь.

Услуга SmartSpeech YourVoice - создание собственного голоса компании

9 июня 2022 года команда SberDevices представила услугу — SmartSpeech YourVoice, — позволяющую в короткие сроки озвучить нешаблонный текст любого объёма и сложности, учитывая интонации и паузы, синтезировать его и использовать в телефонии, на сайте, в мобильном приложении и других каналах взаимодействия с клиентами.

SmartSpeech_YourVoice

Для компаний, которые хотят иметь уникальный голос, формирующий у потребителя ассоциацию с их брендом, команда разработчиков предлагает пополняемую картотеку готовых голосов, из которых можно выкупить определённый голос, после чего он будет изъят из каталога и станет недоступным для других клиентов.

Одновременно с помощью SmartSpeech YourVoice за один месяц можно создать свой собственный голос, используя конкретного диктора, известную всем личность или, например, голос генерального директора компании. Для этого потребуется четырёхчасовая запись диктора, чей голос будет использован для дальнейшего синтеза. Именно такой хронометраж позволяет научить систему озвучивать любое количество текста разной сложности.

С помощью технологии SmartSpeech от SberDevices созданный или готовый голос преобразовывается в естественную речь и может быть использован во всех каналах компании, что позволяет экономить бизнесу время, финансовые затраты и другие ресурсы, необходимые для синтеза речи и озвучивания контента. Диктор не всегда может быть доступен для записи в студии, а также каждый его выезд влечёт за собой дополнительные финансовые затраты. Использование SmartSpeech YourVoice решает эту проблему и позволяет в любой момент доозвучить необходимый контент.

Кроме того, SmartSpeech API предусматривает использование семи общедоступных голосов, в том числе на английском языке, из которых каждый может выбрать подходящий вариант под свои задачи и потребности.

«SmartSpeech YourVoice — это ещё один маркетинговый инструмент для бизнеса, повышающий для конечного потребителя ценность бренда. Ведь использование одного и того же голоса во всех каналах коммуникаций с клиентом вызывает доверие и повышает общую лояльность к бизнесу. Немаловажно и то, что использование уникального голоса может стать дополнительным средством защиты. При контакте с мошенниками клиент сможет быстро идентифицировать их по голосу и своевременно прекратить общение, что особенно актуально для банковского сектора. Также наша технология предусматривает возможность наложить на фон речи диктора звуковое сопровождение: пение птиц, шум моря или другую звуковую дорожку, которая поможет погрузиться в нужную атмосферу»,

рассказал Денис Афанасьев, директор дивизиона В2В-продуктов Салют SberDevices

В основе Telegram-бота Сбера для текстовой расшифровки аудиофайлов и голосовых сообщений

31 марта 2022 года «Сбербанк» сообщил, что команда SberDevices запустила бесплатный бот в Telegram, который конвертирует голосовые сообщения на русском языке в текстовый формат. Бот работает на основе технологии распознавания речи SmartSpeech и станет полезным инструментом для журналистов, копирайтеров, переводчиков и представителей других профессий, которые работают с текстами. Он позволит сэкономить часы работы, сократить рутину и значительно повысит эффективность при производстве контента. Подробнее здесь.

2021

Доступность в облаке SberCloud

Сервис SmartSpeech от SberDevices, который позволяет применять речевые технологии в бизнесе без дополнительных затрат на их разработку и закупку оборудования, стал партнёрским продуктом на основе технологий машинного обучения и искусственного интеллекта, доступным на высокопроизводительной инфраструктуре SberCloud. Об этом Сбер сообщил 11 августа 2021 года.

SmartSpeech способен высокоточно распознавать и синтезировать речь на русском языке. С его помощью можно создавать новые и оснащать уже существующие продукты и услуги передовыми речевыми технологиями.

Клиенты SberCloud могут использовать сервис SmartSpeech при создании чат-ботов, голосовых ассистентов, в интерактивных голосовых меню, колл-центрах, интернет-магазинах, службах поддержки, в озвучивании сайтов и огромном количестве других сценариев.

Теперь в SberCloud стало возможным разрабатывать, разворачивать и масштабировать свои продукты на платформе ML Space и интегрировать их с готовым сервисом синтеза и распознавания речи SmartSpeech.

Если же для продукта необходимо дообучить модель синтеза или распознавания речи, то в ML Space SberCloud в маркетплейсе ML-инструментов DataHub уже доступна предобученная модель для распознавания речи, а также большой русскоязычный размеченный вручную речевой датасет Golos, над которым работала команда SberDevices.

Сервис SmartSpeech и платформа ML Space от SberCloud позволяют значительно упростить и ускорить внедрение речевых технологий и интерфейсов в продукты и услуги.

До конца 2021 года сервис SmartSpeech будет доступен бесплатно, и уже на август 2021 года его можно использовать для полноценной работы.

Любой российский предприниматель, стартап или крупная компания может получить грант до миллиона рублей от SberCloud для создания и внедрения в свои продукты технологий машинного обучения на платформе ML Space.

Запуск первого партнёрского AI-сервиса — важный этап в развитии SberCloud, и неслучайно, что таким продуктом стал сервис SmartSpeech, разработанный коллегами из SberDevices при помощи нашей облачной платформы ML Space. Такое партнёрство ещё раз показывает сильные стороны экосистемы Сбера. Мы уверены, что интеграция SmartSpeech и облачных сервисов SberCloud даст нашим клиентам лучшие инструменты для работы с речевыми технологиями — ключевым направлением искусственного интеллекта и машинного обучения.

Распознавание и синтез речи уже активно применяются в продуктах и сервисах экосистемы, а облачная реализация SmartSpeech в SberCloud делает его доступным максимальному числу бизнес-пользователей из самых разных отраслей экономики, — сказал Евгений Колбин, генеральный директор SberCloud.

Речевые технологии очень востребованы, их внедрение и использование стоит гораздо дешевле, чем работа операторов и дикторов, оптимизирует и делает значительно эффективнее процесс взаимодействия с клиентами. Переход на интерактивное голосовое меню или автоответчик помогает быстрее справляться с рутинными запросами и разгрузить сотрудников контакт-центров, позволяя им уделять больше времени клиентам. Так, когда звонящий говорит, какая услуга ему нужна, он либо переводится на нужного оператора, либо сразу получает ответ от виртуального оператора. Ещё SmartSpeech можно использовать на сайтах, в приложениях или умных устройствах для озвучивания контента и команд или голосового ввода. Мы в SberDevices очень рады, что именно наш сервис стал первым партнёрским AI-сервисом в SberCloud, и уверены, что пользователи облака найдут для себя подходящие сценарии интеграции со SmartSpeech, — отметил Денис Филиппов, CTO SberDevices.

Запуск сервиса SmartSpeech

Сбербанк 14 мая 2021 года запустил SmartSpeech — сервис, который позволит бизнесу без специального оборудования подключать речевые технологии, например, в интерактивном голосовом меню (IVR), автоответчике, чатах, телемаркетинговых кампаниях или в голосовых интерфейсах взаимодействия. До конца 2021 года доступ к сервису, разработанному командой SberDevices, будет бесплатным.

SmartSpeech можно использовать на сайтах, в приложениях или умных устройствах для озвучивания контента и команд или голосового ввода. Также используемые в сервисе технологии синтеза и распознавания речи применяются для создания IVR (интерактивного голосового меню) и автоответчика — это оптимизирует работу колл-центров. Сервис сам распознаёт и синтезирует речь, а также способен использовать «подсказки», помогающие точно понимать пользователя в зависимости от конкретной ситуации. SmartSpeech используется и в самом Сбербанке, например, он является основой в семействе виртуальных ассистентов Салют. Он же позволяет узнать баланс банковской карты по номеру 900 в любое время суток без ожидания оператора.

Одна из задач бизнеса, которая может быть решена с применением SmartSpeech, — быстро, эффективно и малозатратно решить вопрос, с которым обращается клиент. Звонящий говорит, какая услуга ему нужна, и либо сразу попадает на нужного оператора, либо получает ответ от робота. Особые модели распознавания тишины и шума, способность определять конец высказывания и эмоции собеседника позволяют сделать взаимодействие с роботом живым и эмпатичным, а обучение акустических моделей на большом объёме данных помогает качественно распознавать речь даже во время телефонного разговора.

Заранее записывать «живую» речь не придётся: достаточно загрузить текст, и робот сам прочтёт его вслух. Сервис уже предлагает несколько голосов, а их библиотека продолжает расширяться, позволяя выбирать из всё большего количества тонов, тембров и настроений звучания, подходящих конкретному бизнесу на 100%. При этом SmartSpeech генерирует максимально естественную речь: собственная модель расстановки ударений помогает значительно уменьшить количество фонетических ошибок в синтезе, с её помощью легко озвучивается даже сложный текст — цифры, адреса, названия.

В SmartSpeech используются самые последние наработки в сфере Deep Learning. Нейросети обучаются на огромных объёмах данных с использованием мощностей суперкомпьютера «Кристофари» от Сбера. Сервисы написаны на языке программирования C++, а нейросети используют GPU для сверхбыстрой работы. В распознавании речи используются сверхточные архитектуры, такие как Jasper, QuartzNet и другие.

Чтобы добиться качественного синтеза речи, команда SberDevices модифицировала архитектуру Tacotron 2, внедрив в неё контроль за частотой основного тона речи, паузами, а также изменяя интонацию в зависимости от темы текста. Для этого используется информация, полученная из модели BERT, которую предварительно обучили русскому языку на большом количестве текстов, благодаря чему синтез речи звучит сложно отличимо от речи реального человека.

Речевые технологии, лежащие в основе сервиса SmartSpeech, активно внедряются в колл-центрах и службах поддержки, а их использование стоит в разы меньше, чем работа оператора или диктора. Например, многие компании автоматизируют работу со звонками, записывая готовые реплики, но работу, которую выполняет человек, можно отдать сервису, функционирующему на основе речевых технологий. Таким же образом компании могут озвучивать тексты сайтов и приложений или добавить опцию голосового ввода, что значительно ускоряет взаимодействие пользователя с ресурсом и даёт ему возможность пользоваться тем или иным сервисом даже за рулём, — сказал Денис Филиппов, CTO SberDevices

Компаниям, желающим протестировать SmartSpeech, предоставляется программный интерфейс (API) для подключения и использования речевых сервисов в своих продуктах. API использует протоколы HTTP и gRPC, поэтому код можно очень быстро встроить практически в любую систему. Использование HTTP REST и gRPC API удобно, когда у бизнеса есть собственная интеграция, например собственный клиент для телефонной платформы. Если же необходимо сделать интеграцию TTS API для сайта или приложения, то HTTP — самый простой и быстрый вариант выполнения этой задачи.

Источник — «https://zdrav.expert/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:%D0%A1%D0%B1%D0%B5%D1%80_SaluteSpeech_(SmartSpeech)»