Spirit Voice Storage Codec (VoSToC)

Продукт

Разработчики:	Spirit DSP (Спирит Корп)
Дата премьеры системы:	2016/07/12
Отрасли:	Телекоммуникация и связь
Технологии:	Речевые технологии

Содержание

2016
- Заявка на патент
- VoSToC - кодек с высоким коэффициентом сжатия голосовых данных

СМ. ТАКЖЕ (1)

Spirit Voice Storage Codec (VoSToC) - речевой кодек.

2016

Заявка на патент

29 сентября 2016 года компания SPIRIT сообщила о подаче заявки для получения патента на технологию сжатия мультимедийной информации (видео и голоса) большого объема для хранения в системах хранения данных (СХД).

Голосовые кодеки G.729, G.723.1 сжимают речь примерно в 8 раз (с потерями), после этого SPIRIT может сжать речь еще в 3 раза. Видеокодеки H.263/H.264 сжимают видео в среднем примерно в 50 раз (с потерями), после этого SPIRIT может сжать видео еще в 100 раз, путем интеллектуального анализа информации на основе ее важности, заявила компания-разработчик.

Когда заходит речь о поиске лучшего решения для хранения большого объема мультимедийных данных, необходимо уделять внимание двум основным параметрам: степени сжатия и качеству записанной речи. У нас разработаны и уже используются на мировом рынке технологии сжатия голоса, которые позволяют записать в 1 МБ памяти почти 2 часа вокодированной речи. Закон требует записывать и хранить все мультимедийные данные, и если текст не занимает много места в СХД, то для хранения речи, аудио и видео потребуются на порядки большие ресурсы. Нет надобности хранить весь "информационный мусор", бо́лее компактно можно записать малоинформативную часть данных, а вот все самые важные фрагменты записи должны быть представлены качественно.

Владимир Свириденко, технический директор SPIRIT и автор патентной заявки

Предложенная концепция интеграции интеллектуальной классификации разных фрагментов мультимедийной информации и известных методов кодирования источника с потерями, разработанная SPIRIT, помогает повысить эффективность компактного представления мультимедийной информации и позволяет ответить на вопросы мета-уровня:

что хранить,
как хранить,
в каком формате хранить,
как определить ценность хранимой информации для систем принятия решения,
как ее кодировать и записать в цифровую память.

Технические детали

Для кодирования видео используются кодеки ITU-T Н.26Х, проприетарные кодеки VPх. Коэффициент сжатия варьируется от 10 до 500 раз в зависимости от допустимой скорости видеопотока или выделенного объема памяти для хранения изображений/видео, уровня заданного качества, типа кодека и специфики изображений/видео.

Используемый в таких кодеках принцип сжатия изображений и видео с потерями — устранение пространственной избыточности на базе перехода из пространственной области в частотную на базе трансформации матрицы изображения, как в JPEG (или опорного кадра, как в MPEG 2 и 4), и использования системы ортогональных функций (преобразование Фурье, Уолша, дискретного косинусного преобразования (DCT), вейвлетов и др.) и тонкого или грубого квантования компонентов, что вносит погрешность, и последующее кодирование квантованных компонентов на принципах энтропийного кодирования без потерь (в частности, арифметического кодирования); устранение временной избыточности в соседних кадрах видеопотока, в которых, как правило, есть небольшие изменения за счет движения объектов в кадре или видеокамеры, выявляемые средствами оценки движения (motion estimator) и определением векторов движения для кодирования только измененных фрагментов нового кадра по отношению к опорному (детальное описание в стандартах MPEG 2 и 4, Н.26х).

Для кодирования речи используются речевые кодеки по стандартам ITU-T серии G.7xx (G.711, G.718, G.719, G.722.2 (AMR WB), G.723.1, G.726, G.729, G.729.1 и др.), кодеки GSM, SILC, iLBC и другие проприетарные кодеки. Коэффициент сжатия варьируется от 5 до 50 раз в зависимости от требуемой скорости речевого потока на выходе кодера, уровня заданного качества, допустимой задержки и специфики речевого сигнала (с учетом пауз в речи). Если форма оригинального сигнала сохраняется на выходе кодека с контролируемой погрешностью, то такие кодеки называются кодеками речевой волны (waveform codecs).

Для кодирования аудиосигналов используются аудиокодеки МР3, ААС, ААС+, WMA и др. Практически все аудиокодеки созданы на основе метода waveform coding, но обработка сигнала производится, как правило, в частотной области. Коэффициент сжатия аудиопотока варьируется от 5 до 30 раз и зависит от полосы частот аудиосигнала и требуемого качества воспроизведения аудио при декодировании.

VoSToC - кодек с высоким коэффициентом сжатия голосовых данных

12 июля 2016 года компания SPIRIT сообщила о выводе на рынок речевого кодека для приложений, требующих сжатия и хранения больших объемов голосовых данных VoSToC (Voice Storage Codec).

Как заявила компания-разработчик, SPIRIT VoSToC — специальный вокодер, работающий на скорости 2400 бит/с и ориентированный на хранение речи. По качеству воспроизведения речи VoSToC в своем классе превосходит мировые аналоги. Для кодеков, предназначенных для запоминания мультимедийных данных (в частности, для кодеков речевого сигнала), нет необходимости сохранять малую алгоритмическую задержку, важную для двусторонней коммуникации в реальном времени, что позволяет путем более эффективной обработки сигнала повысить качество декодированной речи. Именно такой подход используется в речевом кодеке SPIRIT VoSToC - при низкой скорости вокодера (2400 бит/с) обеспечивается качество сигнала после декодирования, свойственное кодекам с более высокими скоростями.

Когда заходит речь о поиске лучшего решения для хранения большого объема мультимедийных данных, как сейчас в рамках «Пакета законов Яровой», необходимо уделять внимание двум основным параметрам: степени сжатия и качеству записанной речи. В SPIRIT разработаны и широко лицензируются на мировом рынке технологии сжатия речи, которые позволяют записать в 1 MB памяти почти 2 часа вокодированной речи. При этом SPIRIT использует специальные методы обработки речевого сигнала для кодирования, что обеспечивает качественное воспроизведение записанной речи. Это именно то, что требуется сегодня российским телеком-операторам и российским вендорам оборудования для хранения мультимедийных данных для минимизации расходов при исполнении новых законодательных требований хранения записей разговоров.

Владимир Свириденко, технический директор SPIRIT

Согласно мнению разработчиков, кодек VoSToC в ряду низкобитрейтных речевых кодеков SPIRIT (на скоростях 1200, 2400, 3600, 4800, 6000, 8000 бит/с), которые по качеству кодирования голоса не уступают мировым стандартным вокодерам в своем классе. Также SPIRIT разработала и использует в своем движке для голосовых и видеокоммуникаций IP-MR - масштабируемый кодек, работающий на разных скоростях, способный обеспечить качественное кодирование речи при изменяющейся пропускной способности канала.

Источник — «https://zdrav.expert/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:Spirit_Voice_Storage_Codec_(VoSToC)»