ВШЭ: Эмоциональный словарь для обучения искусственного интеллекта

Продукт

Разработчики:	НИУ ВШЭ - Санкт-Петербург (Санкт-Петербургский филиал НИУ ВШЭ)
Дата премьеры системы:	август 2025 г.
Отрасли:	Информационные технологии

Содержание

История
- 2025: Запуск датасета
Примечания

История

2025: Запуск датасета

Исследователи Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) в Санкт-Петербурге разработали и выпустили в открытый доступ мультимодальный эмоциональный датасет для обучения систем искусственного интеллекта анализу человеческих эмоций. Об этом в НИУ ВШЭ сообщили в конце августа 2025 года.

Заведующая Лабораторией языковой конвергенции Анастасия Колмогорова и исследователь Елизавета Куликова создали набор данных, включающий 909 фрагментов видеозаписей общей продолжительностью 173 минуты с разметкой по шести базовым эмоциям.

Созданный ресурс представляет новый подход к систематизации лингвистических знаний для цифровой эпохи. Датасет заменяет традиционную пару «слово — толкование» на формат «текстовый фрагмент — эмоциональная метка».

Колмогорова объяснила, что большие языковые модели способны улавливать скрытые паттерны, которые люди ощущают на подсознательном уровне, но не могут формализовать. Грамотно организованные и размеченные данные адаптированы для работы с нейросетями и меняют профессиональные задачи лингвистов.Вебинар: «Управление качеством в фарме: от зарубежных решений и бумаги — к российской системе Docs5 EQMS»

Исследование охватывает четыре различных формата представления информации: полный видеофрагмент как основа, изолированное аудио, текстовая расшифровка и немое видео без звукового сопровождения. Каждый отрывок получил оценку разметчиков по шести базовым эмоциональным категориям.

Эксперимент выявил неожиданные закономерности в распознавании эмоций человеком. Участники исследования наиболее согласованно определяли эмоциональную окраску при чтении письменного текста. Прослушивание только аудиозаписей приводило к большему разбросу мнений, а немое видео показало наихудшие результаты консенсуса.

Детальный анализ показал специфику проявления различных эмоций в разных модальностях коммуникации. Радость и удивление точнее всего распознаются через звучащую речь благодаря интонационным особенностям. Злость идентифицируется по тексту в 72,9% случаев против 67,4% для аудиоформата.

Страх оказался наиболее вербальной эмоцией — он распознается по тексту и аудио в 87% случаев, что указывает на критическую важность словесных маркеров. По мимическим проявлениям страх практически не читается — только 3,5% успешных распознаваний.^[1]