| Разработчики: | НИУ ВШЭ - Санкт-Петербург (Санкт-Петербургский филиал НИУ ВШЭ) |
| Дата премьеры системы: | август 2025 г. |
| Отрасли: | Информационные технологии |
Содержание |
История
2025: Запуск датасета
Исследователи Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) в Санкт-Петербурге разработали и выпустили в открытый доступ мультимодальный эмоциональный датасет для обучения систем искусственного интеллекта анализу человеческих эмоций. Об этом в НИУ ВШЭ сообщили в конце августа 2025 года.
Заведующая Лабораторией языковой конвергенции Анастасия Колмогорова и исследователь Елизавета Куликова создали набор данных, включающий 909 фрагментов видеозаписей общей продолжительностью 173 минуты с разметкой по шести базовым эмоциям.
Созданный ресурс представляет новый подход к систематизации лингвистических знаний для цифровой эпохи. Датасет заменяет традиционную пару «слово — толкование» на формат «текстовый фрагмент — эмоциональная метка».
Колмогорова объяснила, что большие языковые модели способны улавливать скрытые паттерны, которые люди ощущают на подсознательном уровне, но не могут формализовать. Грамотно организованные и размеченные данные адаптированы для работы с нейросетями и меняют профессиональные задачи лингвистов.Вебинар: «Управление качеством в фарме: от зарубежных решений и бумаги — к российской системе Docs5 EQMS»
Исследование охватывает четыре различных формата представления информации: полный видеофрагмент как основа, изолированное аудио, текстовая расшифровка и немое видео без звукового сопровождения. Каждый отрывок получил оценку разметчиков по шести базовым эмоциональным категориям.
Эксперимент выявил неожиданные закономерности в распознавании эмоций человеком. Участники исследования наиболее согласованно определяли эмоциональную окраску при чтении письменного текста. Прослушивание только аудиозаписей приводило к большему разбросу мнений, а немое видео показало наихудшие результаты консенсуса.
Детальный анализ показал специфику проявления различных эмоций в разных модальностях коммуникации. Радость и удивление точнее всего распознаются через звучащую речь благодаря интонационным особенностям. Злость идентифицируется по тексту в 72,9% случаев против 67,4% для аудиоформата.
Страх оказался наиболее вербальной эмоцией — он распознается по тексту и аудио в 87% случаев, что указывает на критическую важность словесных маркеров. По мимическим проявлениям страх практически не читается — только 3,5% успешных распознаваний.[1]







