Разработчики: | Spirit DSP (Спирит Корп) |
Дата премьеры системы: | 2016/07/12 |
Отрасли: | Телекоммуникация и связь |
Технологии: | Речевые технологии |
Содержание |
Spirit Voice Storage Codec (VoSToC) - речевой кодек.
2016
Заявка на патент
29 сентября 2016 года компания SPIRIT сообщила о подаче заявки для получения патента на технологию сжатия мультимедийной информации (видео и голоса) большого объема для хранения в системах хранения данных (СХД).
Голосовые кодеки G.729, G.723.1 сжимают речь примерно в 8 раз (с потерями), после этого SPIRIT может сжать речь еще в 3 раза. Видеокодеки H.263/H.264 сжимают видео в среднем примерно в 50 раз (с потерями), после этого SPIRIT может сжать видео еще в 100 раз, путем интеллектуального анализа информации на основе ее важности, заявила компания-разработчик.
Когда заходит речь о поиске лучшего решения для хранения большого объема мультимедийных данных, необходимо уделять внимание двум основным параметрам: степени сжатия и качеству записанной речи. У нас разработаны и уже используются на мировом рынке технологии сжатия голоса, которые позволяют записать в 1 МБ памяти почти 2 часа вокодированной речи. Закон требует записывать и хранить все мультимедийные данные, и если текст не занимает много места в СХД, то для хранения речи, аудио и видео потребуются на порядки большие ресурсы. Нет надобности хранить весь "информационный мусор", бо́лее компактно можно записать малоинформативную часть данных, а вот все самые важные фрагменты записи должны быть представлены качественно. |
Предложенная концепция интеграции интеллектуальной классификации разных фрагментов мультимедийной информации и известных методов кодирования источника с потерями, разработанная SPIRIT, помогает повысить эффективность компактного представления мультимедийной информации и позволяет ответить на вопросы мета-уровня:
- что хранить,
- как хранить,
- в каком формате хранить,
- как определить ценность хранимой информации для систем принятия решения,
- как ее кодировать и записать в цифровую память.
Технические детали
Для кодирования видео используются кодеки ITU-T Н.26Х, проприетарные кодеки VPх. Коэффициент сжатия варьируется от 10 до 500 раз в зависимости от допустимой скорости видеопотока или выделенного объема памяти для хранения изображений/видео, уровня заданного качества, типа кодека и специфики изображений/видео.
Используемый в таких кодеках принцип сжатия изображений и видео с потерями — устранение пространственной избыточности на базе перехода из пространственной области в частотную на базе трансформации матрицы изображения, как в JPEG (или опорного кадра, как в MPEG 2 и 4), и использования системы ортогональных функций (преобразование Фурье, Уолша, дискретного косинусного преобразования (DCT), вейвлетов и др.) и тонкого или грубого квантования компонентов, что вносит погрешность, и последующее кодирование квантованных компонентов на принципах энтропийного кодирования без потерь (в частности, арифметического кодирования); устранение временной избыточности в соседних кадрах видеопотока, в которых, как правило, есть небольшие изменения за счет движения объектов в кадре или видеокамеры, выявляемые средствами оценки движения (motion estimator) и определением векторов движения для кодирования только измененных фрагментов нового кадра по отношению к опорному (детальное описание в стандартах MPEG 2 и 4, Н.26х).
Для кодирования речи используются речевые кодеки по стандартам ITU-T серии G.7xx (G.711, G.718, G.719, G.722.2 (AMR WB), G.723.1, G.726, G.729, G.729.1 и др.), кодеки GSM, SILC, iLBC и другие проприетарные кодеки. Коэффициент сжатия варьируется от 5 до 50 раз в зависимости от требуемой скорости речевого потока на выходе кодера, уровня заданного качества, допустимой задержки и специфики речевого сигнала (с учетом пауз в речи). Если форма оригинального сигнала сохраняется на выходе кодека с контролируемой погрешностью, то такие кодеки называются кодеками речевой волны (waveform codecs).
Для кодирования аудиосигналов используются аудиокодеки МР3, ААС, ААС+, WMA и др. Практически все аудиокодеки созданы на основе метода waveform coding, но обработка сигнала производится, как правило, в частотной области. Коэффициент сжатия аудиопотока варьируется от 5 до 30 раз и зависит от полосы частот аудиосигнала и требуемого качества воспроизведения аудио при декодировании.
VoSToC - кодек с высоким коэффициентом сжатия голосовых данных
12 июля 2016 года компания SPIRIT сообщила о выводе на рынок речевого кодека для приложений, требующих сжатия и хранения больших объемов голосовых данных VoSToC (Voice Storage Codec).
Как заявила компания-разработчик, SPIRIT VoSToC — специальный вокодер, работающий на скорости 2400 бит/с и ориентированный на хранение речи. По качеству воспроизведения речи VoSToC в своем классе превосходит мировые аналоги. Для кодеков, предназначенных для запоминания мультимедийных данных (в частности, для кодеков речевого сигнала), нет необходимости сохранять малую алгоритмическую задержку, важную для двусторонней коммуникации в реальном времени, что позволяет путем более эффективной обработки сигнала повысить качество декодированной речи. Именно такой подход используется в речевом кодеке SPIRIT VoSToC - при низкой скорости вокодера (2400 бит/с) обеспечивается качество сигнала после декодирования, свойственное кодекам с более высокими скоростями.
Когда заходит речь о поиске лучшего решения для хранения большого объема мультимедийных данных, как сейчас в рамках «Пакета законов Яровой», необходимо уделять внимание двум основным параметрам: степени сжатия и качеству записанной речи. В SPIRIT разработаны и широко лицензируются на мировом рынке технологии сжатия речи, которые позволяют записать в 1 MB памяти почти 2 часа вокодированной речи. При этом SPIRIT использует специальные методы обработки речевого сигнала для кодирования, что обеспечивает качественное воспроизведение записанной речи. Это именно то, что требуется сегодня российским телеком-операторам и российским вендорам оборудования для хранения мультимедийных данных для минимизации расходов при исполнении новых законодательных требований хранения записей разговоров. |
Согласно мнению разработчиков, кодек VoSToC в ряду низкобитрейтных речевых кодеков SPIRIT (на скоростях 1200, 2400, 3600, 4800, 6000, 8000 бит/с), которые по качеству кодирования голоса не уступают мировым стандартным вокодерам в своем классе. Также SPIRIT разработала и использует в своем движке для голосовых и видеокоммуникаций IP-MR - масштабируемый кодек, работающий на разных скоростях, способный обеспечить качественное кодирование речи при изменяющейся пропускной способности канала.
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (44)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
SteadyControl (18)
Naumen (Наумен консалтинг) (15)
Другие (188)
Группа компаний ЦРТ (Центр речевых технологий) (5)
SteadyControl (4)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
Naumen (Наумен консалтинг) (2)
Neuro.net (Нейро) (2)
Другие (17)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
SteadyControl (2)
Другие (14)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
SteadyControl (1, 23)
SteadyControl HoReCa (1, 23)
Другие (347, 207)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SteadyControl (1, 4)
SteadyControl HoReCa (1, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Другие (9, 13)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Naumen (Наумен консалтинг) (1, 3)
SteadyControl (1, 3)
SteadyControl HoReCa (1, 3)
Другие (12, 16)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 7)
SteadyControl HoReCa (1, 7)
Другие (17, 29)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
SteadyControl (1, 5)
SteadyControl HoReCa (1, 5)
Ростелеком (2, 4)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 3)
Другие (20, 32)
Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)
МТС Exolve Голосовой робот - 29 (5, 24)
SteadyControl Система контроля и управления персоналом - 23 (23, 0)
BSS Digital2Speech - 21 (21, 0)
Voice2Med Система распознавания речи в медицине - 14 (14, 0)
Naumen Erudite - 13 (13, 0)
Другие 144
BSS Digital2Speech - 5 (5, 0)
SteadyControl Система контроля и управления персоналом - 4 (4, 0)
Voice2Med Система распознавания речи в медицине - 4 (4, 0)
МТС Exolve Голосовой робот - 2 (0, 2)
Neuro.net Голосовой робот - 2 (2, 0)
Другие 8
МТС Exolve Голосовой робот - 12 (1, 11)
BSS Digital2Speech - 6 (6, 0)
Naumen Erudite - 3 (3, 0)
VS Robotics: VS Робот-оператор - 3 (3, 0)
SteadyControl Система контроля и управления персоналом - 3 (3, 0)
Другие 0
МТС Exolve Голосовой робот - 9 (0, 9)
SteadyControl Система контроля и управления персоналом - 7 (7, 0)
EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
BSS Digital2Speech - 6 (6, 0)
SmartLogger II - 4 (4, 0)
Другие 12
SteadyControl Система контроля и управления персоналом - 5 (5, 0)
BSS Digital2Speech - 4 (4, 0)
BSS: Виртуальный голосовой ассистент - 3 (3, 0)
Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
YandexGPT (YaLM 2.0) - 3 (3, 0)
Другие 22