Yandex SpeechKit Cloud

Продукт
Разработчики: Яндекс (Yandex), Яндекс.Облако (Yandex.Cloud)
Дата последнего релиза: 2023/12/19
Отрасли: Интернет-сервисы
Технологии: SaaS - Программное обеспечение как услуга,  ИБ - Биометрическая идентификация,  Речевые технологии

Содержание

Основная статья: Голосовая биометрия

2023

Представление 8 дополнительных голосов

19 декабря 2023 года облачная платформа Yandex Cloud представила 8 новых голосов с разными эмоциями в сервисе Yandex SpeechKit. Теперь компании смогут использовать в синтезе речи приветливую, строгую интонации или даже шепот. Это позволит компаниям-разработчикам менять окраску синтеза речи в зависимости от бизнес-сценария и повышать удовлетворенность клиентов и конверсию в голосовых каналах. Кроме этого, в сервисе появился параметр, который позволяет изменять высоту голоса.

Компании смогут выбирать оптимальный голос под бизнес-сценарий. Например, для опроса удовлетворенности использовать приветливую речь, а для сбора обратной связи о качестве услуг после жалобы клиента выбрать сопереживающую, серьезную интонацию голоса. По данным исследования разработчика голосовых роботов Tomoru, разные типы голосов влияют на конверсию продаж и на восприятие речевых коммуникаций клиентами. Так, женский голос лучше всего работает в рекрутинге — 68% конверсий, а мужской чаще используют в онлайн-образовании — 53% конверсий.

Разнообразие голосов в Yandex SpeechKit позволило сделать диалоги роботов менее шаблонными, нативными. При создании новых голосов разработчики Yandex SpeechKit изменили не только работу модели машинного обучения, но и текстовую базу, которую использовали дикторы. Это позволило улучшить звучание голосов в вопросительных и восклицательных предложениях, которые являются сложной задачей для синтеза речи.

«
Синтез речи — это популярная технология для автоматизации коммуникаций в контакт-центрах и не только. Нам, как разработчикам, важно в том числе, чтобы диалоги с голосовыми роботами были человечными и комфортными для обычных людей. В будущем мы планируем предоставлять пользователям еще больше новых голосов, - рассказал Григорий Атрепьев, CPO облачной платформы Yandex Cloud.
»

Распознавание речи на узбекском языке

15 июня 2023 года компания Yandex Cloud сообщила о разработке нейросети, которая может распознавать речь и воспроизводить ее на узбекском языке. Компании как в России, так и в Узбекистане уже могут использовать дополнительный язык в сервисе Yandex SpeechKit для создания голосовых помощников, автоматизации колл-центров и речевой аналитики.

Модели синтеза речи обучались на предзаписи голоса реального диктора. При этом они умеют синтезировать речь не только из текста, но и из его фонемной записи, в которой указаны все особенности звуков в словах. Это позволит клиентам корректировать в синтезе произношение отдельных слов - сложные фамилии, названия товаров, заимствованные выражения. Для этого им нужно будет указать в тексте фонемный разбор нужного слова с помощью специального синтаксиса.

Так же как и для синтеза речи, для распознавания нейросети учатся на примерах. Чтобы их обучить, специалисты Yandex Cloud собрали датасет с тысячами часов аудио и их расшифровками, в том числе короткие и длинные фразы, а также имена, адреса, даты и числа.

Нейросети для синтеза и распознавания узбекского работают с латинским алфавитом, который используется в Узбекистане уже больше 20 лет. При этом алгоритмам пришлось выучить и некоторые звуковые особенности букв. Например, буква «X» обозначает в алфавите твердый [х], а в иностранных словах может произноситься как [кс].

«
В Узбекистане активно развиваются сценарии, связанные с искусственным интеллектом, в частности с речевыми технологиями. По оценке одного из наших партнеров, объем рынка речевых технологий в Узбекистане может достигать до 395 миллионов минут обработанной речи в год. Появление шестнадцатого языка в Yandex SpeechKit - большой шаг для создания диалоговых сценариев как для узбекских, так и для российских компаний, - рассказал Григорий Атрепьев, директор по продуктам в Yandex Cloud.

»

Модели доступны на сайте и настраиваются стандартными средствами в API. Синтез и распознавание узбекского языка с помощью Yandex SpeechKit уже начал использовать ряд компаний.

2022

Интеграция с Just AI Conversational Platform

20 сентября 2022 года компания Just AI сообщила об интеграции с Yandex Cloud решений для запуска голосовых AI-проектов в контуре заказчика. Теперь пользователи сервиса для распознавания и синтеза речи Yandex SpeechKit смогут разворачивать полномасштабные голосовые AI-проекты не только в облаке, но и в собственном контуре. Подробнее здесь.

Добавление возможности автоматической расстановки знаков препинания

В Yandex SpeechKit (сервисе для синтеза и распознавания речи) появилась возможность при переводе голоса в текст автоматически расставить знаки препинания. Распознанный нейросетью текст максимально приближен к литературному и проще воспринимается читателем. Об этом компания Яндекс сообщила 20 апреля 2022 года.

Это улучшит опыт пользователей в сценариях, где с речевыми технологиями напрямую взаимодействует человек. Например, общение с голосовым помощником, автоматическое транскрибирование или формирование субтитров.

Пунктуатор разработан с помощью двух последовательно работающих моделей машинного обучения. Первая переводит голос в текст, вторая расставляет знаки препинания в соответствии с нормами русского языка. На апрель 2022 года модель расставляет все основные знаки пунктуации русского языка.

2020: Yandex SpeechKit Pro

23 сентября 2020 года компания платформа Yandex.Cloud представила специализацию сервиса SpeechKit — Yandex SpeechKit Pro. Это программа для компаний-разработчиков, участники которой получат доступ к новым инструментам для создания роботов и голосовых помощников, ориентированных на работу в конкретной отрасли или компании. Такие роботы смогут распознавать слова и команды на определенную тему с максимальным уровнем точности, утверждают в Yandex.Cloud. Новые инструменты помогут оптимизировать сценарии обслуживания в банке, в медицине или в доставке. Также SpeechKit Pro позволяет создавать индивидуальные черты голосового робота: интонации и манеру общения.

К 2020 году синтез и распознавание речи стали самым востребованным ML-сервисом на платформе Yandex.Cloud. По данным разработчиков, с начала года объем потребления SpeechKit вырос на 120%. Количество активных проектов превысило 500. В России уже сформировалась экосистема разработчиков и интеграторов решений, которые по заказу компаний из различных сфер создают и внедряют голосовых роботов для помощи в обработке входящих и исходящих звонков, системы голосового управления в приложениях и терминалах обслуживания клиентов, решения по анализу эффективности бизнес-коммуникаций. На сентябрь это более 20 компаний, большинство из которых — постоянные партнеры платформы Yandex.Cloud. По данным партнеров, за последние два года основными мотивами внедрения голосовых роботов в российских компаниях стали сокращение затрат и быстрое масштабирование решений.

«
«Вместе с нашими партнерами мы прошли большой путь, за два года сделав Речевые технологии из экзотического сервиса прикладным инструментом бизнеса. Теперь мы делаем следующий шаг и открываем следующий уровень речевых технологий Яндекса для партнеров. Компании-разработчики получат доступ к расширенным возможностям SpeechKit, а заказчики решений смогут выбрать поставщика с наиболее подходящей экспертизой», — прокомментировал Алексей Башкеев, руководитель платформы Yandex.Cloud.
»

Вместе с интересом бизнеса к возможностям речевых технологий, выросли и требования к точности распознавания в конкретных сценариях взаимодействия голосовых роботов и человека, возможности быстро адаптировать разработки под новые задачи. Например, для компании из сферы доставки принципиально важно, чтобы робот не путался в оценке значений фраз «перенесите заказ» или «занесите заказ», а для телекоммуникационных компаний — чтобы без ошибок отличал фразы «включить услугу» и «отключить услугу». Приоритет бизнеса — точность именно в его сфере, возможность развивать опыт применения в конкретном бизнес-сценарии на основе объективных показателей.

Для решения этих задач Yandex.Cloud предоставляет патнерам дополнительные инструменты разработки в рамках специализации SpeechKit Pro. Теперь компании-партнеры смогут пользоваться разметкой аудиоданных, обучать индивидуальные модели распознавания речи на данных заказчиков, контролировать метрики качества распознавания речи и адаптировать модели распознавания к конкретному потоку данных.

Специализацию SpeechKit Pro уже получили компании Neuro.net, Just.ai, Авиационные технологии связи, Naumen, Robovoice и Voximplant.

2019: Включение в состав IP АТС Standalone от MCN Telecom

29 июля 2019 года компания MCN Telecom сообщила, что добавила сервис Yandex SpeechKit от Яндекса.Облако в IP АТС Standalone, благодаря чему появилась возможность предоставлять крупным клиентам продукт Голосовой помощник на русском языке. Данный функционал может пригодится банкам, финансовым организациям, интернет-магазинам – компаниям, которые применяют в продажах искусственный интеллект (AI) и пр. Подробнее здесь.

2014: Анонс SpeechKit Cloud

4 августа 2014 года компания Яндекс представила SpeechKit Cloud — облачный сервис распознавания речи. С его помощью разработчики могут научить свои продукты понимать голос человека.

Компания сообщила, поддержку SpeechKit Cloud можно добавить в различные программы, сервисы и устройства: от компьютерной игры до автомобильной навигационной системы.

В основе SpeechKit Cloud технология распознавания речи Yandex SpeechKit, которую Яндекс запустил в 2013 году. На 4 августа 2014 года она используется в 400 мобильных приложениях для Android, iOS и Windows Phone.

SpeechKit Cloud "понимает" русский и турецкий языки. Обработка голосовых запросов производится на серверах Яндекса, рассчитанных на высокие нагрузки.

Инфраструктура сервиса спроектирована с учетом высоких нагрузок, чтобы обеспечить доступность и безотказную работу системы при большом количестве одновременных обращений.

Модель взаимодействия (2014)

Взаимодействие со SpeechKit Cloud реализуется через HTTP API. Без установки дополнительного ПО выполняются функции:

  • голосовой ввод в компьютерных играх и приложениях;
  • голосовое управление в салоне автомобиля — например, навигационной системой;
  • интерактивное голосовое меню IVR в телефонии;
  • голосовой интерфейс систем «Умный дом»;
  • голосовой интерфейс электронных роботов;
  • голосовое управление бытовой техникой и т.д.



ПРОЕКТЫ (4) ПРОЕКТЫ НА БАЗЕ (7) ИНТЕГРАТОРЫ (6)
РЕШЕНИЕ НА БАЗЕ (6) СМ. ТАКЖЕ (37) ОТРАСЛИ (7)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  ВидеоМост (VideoMost) (1767)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (1643)
  TrueConf (Труконф) (1593)
  Террасофт (Terrasoft, ТС-Консалтинг) (1147)
  Directum (Директум) (733)
  Другие (8627)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (244)
  Террасофт (Terrasoft, ТС-Консалтинг) (186)
  ВидеоМост (VideoMost) (181)
  Directum (Директум) (110)
  QuickBPM (83)
  Другие (760)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (230)
  ВидеоМост (VideoMost) (101)
  Directum (Директум) (80)
  1С-Рарус (30)
  Projecto (Проджекто) (26)
  Другие (562)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (179)
  Directum (Директум) (84)
  Первый Бит (23)
  Naumen (Наумен консалтинг) (22)
  Адванта Консалтинг (Advanta) (20)
  Другие (399)

  Directum (Директум) (230)
  Первый Бит (17)
  БизнесАвтоматика НПЦ (12)
  Naumen (Наумен консалтинг) (11)
  B2B-Center (Центр развития экономики) (11)
  Другие (192)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  1С Акционерное общество (35, 2825)
  ВидеоМост (VideoMost) (3, 1818)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (4, 1768)
  TrueConf (Труконф) (3, 1609)
  Creatio (12, 1238)
  Другие (1937, 7493)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (2, 327)
  Directum (Директум) (2, 233)
  Creatio (1, 200)
  ВидеоМост (VideoMost) (2, 183)
  1С Акционерное общество (13, 146)
  Другие (154, 503)

  Directum (Директум) (2, 236)
  Elma (Элма, Интеллект Лаб, Практика БПМ) (2, 233)
  ВидеоМост (VideoMost) (1, 102)
  1С Акционерное общество (9, 99)
  Projecto (Проджекто) (1, 26)
  Другие (95, 340)

  Elma (Элма, Интеллект Лаб, Практика БПМ) (2, 180)
  Directum (Директум) (1, 146)
  1С Акционерное общество (12, 89)
  Naumen (Наумен консалтинг) (5, 22)
  1С-Битрикс (1, 21)
  Другие (81, 265)

  Directum (Директум) (1, 237)
  1С Акционерное общество (8, 54)
  1С-Битрикс (1, 18)
  Naumen (Наумен консалтинг) (3, 14)
  БизнесАвтоматика НПЦ (5, 12)
  Другие (64, 154)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  ВидеоМост (VideoMost) ВКС - 1818 (1817, 1)
  ELMA BPM Suite - 1772 (1431, 341)
  1С:Предприятие 8.3 - 1671 (205, 1466)
  TrueConf Server - 1609 (1593, 16)
  Creatio (ранее bpm’online) - 1238 (944, 294)
  Другие 4636

  ELMA BPM Suite - 327 (241, 86)
  Directum RX - 233 (233, 0)
  Creatio (ранее bpm’online) - 200 (200, 0)
  ВидеоМост (VideoMost) ВКС - 183 (182, 1)
  1С:Предприятие 8.3 - 138 (4, 134)
  Другие 221

  Directum RX - 236 (236, 0)
  ELMA BPM Suite - 234 (151, 83)
  ВидеоМост (VideoMost) ВКС - 102 (102, 0)
  1С:Предприятие 8.3 - 94 (4, 90)
  Projecto - 26 (26, 0)
  Другие 120

  ELMA BPM Suite - 183 (22, 161)
  Directum RX - 146 (146, 0)
  1С:Предприятие 8.3 - 79 (3, 76)
  1С-Битрикс24 - 21 (21, 0)
  Advanta (Адванта) - система управления проектами - 20 (20, 0)
  Другие -10

  Directum RX - 237 (237, 0)
  1С:Предприятие 8.3 - 49 (3, 46)
  1С-Битрикс24 - 18 (18, 0)
  B2B-Center: Мои поставщики - 11 (11, 0)
  HRlink Система электронного кадрового документооборота - 10 (10, 0)
  Другие 84

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Биолинк Солюшенс (BioLink Solutions) (134)
  Прософт Биометрикс (ProSoft Biometrics) (74)
  Индид, Indeed (ранее Indeed ID) (45)
  VisionLabs (ВижнЛабс) (34)
  Группа компаний ЦРТ (Центр речевых технологий) (31)
  Другие (459)

  Прософт Биометрикс (ProSoft Biometrics) (11)
  VisionLabs (ВижнЛабс) (7)
  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Талмер (Talmer) (4)
  РекФэйсис (4)
  Другие (52)

  Индид, Indeed (ранее Indeed ID) (6)
  NDBC - ЭнДиБиСи (ранее НТТ ДАТА Бизнес Солюшнс, itelligence Россия, Ителлидженс) (2)
  VisionLabs (ВижнЛабс) (2)
  ВидеоМатрикс (Videomatrix) (2)
  Goodt (Гудт) (2)
  Другие (21)

  Индид, Indeed (ранее Indeed ID) (7)
  Сбербанк (7)
  Сканпорт АйДи (Scanport) (6)
  VisionLabs (ВижнЛабс) (4)
  ОКТРОН (3)
  Другие (15)

  Сбербанк (7)
  Северсталь-Инфоком (3)
  Индид, Indeed (ранее Indeed ID) (2)
  Сканпорт АйДи (Scanport) (2)
  Voca-Tech (Вока-Тек) (1)
  Другие (8)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Биолинк Солюшенс (BioLink Solutions) (9, 140)
  Прософт Биометрикс (ProSoft Biometrics) (18, 84)
  VisionLabs (ВижнЛабс) (26, 50)
  Индид, Indeed (ранее Indeed ID) (1, 45)
  Группа компаний ЦРТ (Центр речевых технологий) (14, 39)
  Другие (361, 310)

  Прософт Биометрикс (ProSoft Biometrics) (7, 11)
  VisionLabs (ВижнЛабс) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (2, 6)
  РекФэйсис (2, 4)
  Ростелеком (4, 3)
  Другие (23, 31)

  Индид, Indeed (ранее Indeed ID) (1, 6)
  Goodt (Гудт) (1, 3)
  ABC Solutions (Эй Би Си Солюшенс) (1, 3)
  VisionLabs (ВижнЛабс) (2, 2)
  ВидеоМатрикс (Videomatrix) (1, 2)
  Другие (9, 9)

  Сбербанк (3, 8)
  Индид, Indeed (ранее Indeed ID) (1, 7)
  VisionLabs (ВижнЛабс) (3, 6)
  Shenzhen Chainway Information Technology (1, 6)
  АйТи Бастион (1, 3)
  Другие (6, 6)

  Сбербанк (1, 6)
  Индид, Indeed (ранее Indeed ID) (1, 2)
  Shenzhen Chainway Information Technology (1, 2)
  АйТи Бастион (1, 1)
  Goodt (Гудт) (1, 1)
  Другие (3, 3)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  BioLink BioTime - 177 (123, 54)
  Indeed Access Manager (Indeed AM) - 45 (45, 0)
  VisionLabs Luna - 40 (24, 16)
  Biosmart Studio - 36 (36, 0)
  СКУД BioSmart - 27 (27, 0)
  Другие 295

  VisionLabs Luna - 10 (5, 5)
  BioSmart PV‑WTC Терминал - 4 (4, 0)
  Biosmart Studio - 4 (4, 0)
  Voice2Med Система распознавания речи в медицине - 4 (4, 0)
  Hikvision HikCentral - 3 (3, 0)
  Другие 32

  Indeed Access Manager (Indeed AM) - 6 (6, 0)
  Goodt (Ранее ZoZo RCAM, Revenue&Costs Assurance Management) - 3 (3, 0)
  VisionLabs Luna - 2 (1, 1)
  Vmx SILA: HSE - 2 (2, 0)
  Наносемантика NLab Speech - 1 (1, 0)
  Другие 5

  Indeed Access Manager (Indeed AM) - 7 (7, 0)
  Shenzhen Chainway C-серия RFID-считывателей - 6 (6, 0)
  Сбербанк: Система оплаты по улыбке - 5 (5, 0)
  VisionLabs Luna - 4 (2, 2)
  АйТи Бастион: СКДПУ НТ Система контроля действий поставщиков ИТ-услуг - 3 (3, 0)
  Другие 4

  Сбербанк: Система оплаты по улыбке - 6 (6, 0)
  Shenzhen Chainway C-серия RFID-считывателей - 2 (2, 0)
  Indeed Access Manager (Indeed AM) - 2 (2, 0)
  АйТи Бастион: СКДПУ НТ Система контроля действий поставщиков ИТ-услуг - 1 (1, 0)
  Voca Tech: Система автоматизированного контроля сотрудников для выполнения стандартов обслуживания - 1 (1, 0)
  Другие 1