Microsoft VALL-E

Продукт
Разработчики: Microsoft
Дата премьеры системы: январь 2023 г.
Отрасли: Информационные технологии
Технологии: Речевые технологии

2023: Анонс нейросети

5 января 2023 года корпорация Microsoft представила новую модель искусственного интеллекта (ИИ), способную преобразовывать текст в речь, точно имитируя голос того или иного человека. Проект получил название VALL-E.

Microsoft называет предложенное решение «языковой моделью нейронного кодека». Этот ИИ способен воссоздавать голос человека на основе образца речи продолжительностью всего три секунды. Причём имитируется не только голос, но и эмоциональная окраска.

Microsoft представила открытую нейросеть, которая может имитировать голос человека

Нейросеть VALL-E основана на технологии EnCodec, которую Meta (признана экстремистской организацией; деятельность на территории Российской Федерации запрещена) представила в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно манипулируют звуковыми волнами, VALL-E анализирует речь человека, разбивая эту информацию на отдельные компоненты (так называемые «токены»). Затем нейросеть использует обучающие алгоритмы, чтобы на основе имеющихся знаний синтезировать любые фразы. Для обучения применялась библиотека Meta LibriLight, которая содержит около 60 000 часов англоязычной речи от более чем 7000 человек (в основном из общедоступных аудиокниг LibriVox).

Отмечается, что VALL-E отлично справляется с воссозданием звуковой среды оригинальной записи. Если голос звучит так, будто человек разговаривает по телефону, то точно так же будут звучать синтезированные фразы. Кроме того, нейросеть хорошо имитирует акценты — по крайней мере, американский, британский и несколько европейских.

VALL-E может использоваться, например, для имитации голоса актёров или создания голосовых чат-ботов. С другой стороны, такая нейросеть может оказаться мощным инструментов в руках злоумышленников. Мошенники, например, смогут позвонить по телефону родственникам человека, имитируя его речь после трёхсекундной записи разговора. Кроме того, могут создаваться фейковые заявления с голосами политиков и пр. [1]

Примечания



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (45)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (196)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  Voice Systems Robotics (VSR, VS Robotics) (2)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3)
  Robovoice (Робовойс) (3)
  Другие (31)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 47)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl HoReCa (1, 23)
  SteadyControl (1, 23)
  Другие (381, 217)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (18, 30)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Ростелеком (2, 4)
  Другие (25, 39)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТС Exolve Голосовой робот - 29 (5, 24)
  SteadyControl Система контроля и управления персоналом - 23 (23, 0)
  BSS Digital2Speech - 21 (21, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  Naumen Erudite - 13 (13, 0)
  Другие 152

  BSS Digital2Speech - 5 (5, 0)
  SteadyControl Система контроля и управления персоналом - 4 (4, 0)
  Voice2Med Система распознавания речи в медицине - 4 (4, 0)
  МТС Exolve Голосовой робот - 2 (0, 2)
  Neuro.net Голосовой робот - 2 (2, 0)
  Другие 8

  МТС Exolve Голосовой робот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие -1

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  BSS Digital2Speech - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 12

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  EXpress Защищенный корпоративный мессенджер - 4 (4, 0)
  BSS: Виртуальный голосовой ассистент - 3 (3, 0)
  YandexGPT (YaLM 2.0) - 3 (3, 0)
  Другие 28