Stable Audio

Продукт

Название базовой системы (платформы):	Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики:	Stability AI
Дата премьеры системы:	апрель 2024 г.
Отрасли:	Индустрия развлечений, досуг, спорт

2024: Анонс продукта

3 апреля 2024 года компания Stability AI представила модель искусственного интеллекта Stable Audio 2.0, которая, как утверждается, устанавливает новые стандарты в области генерации аудиоматериалов. В частности, эта нейросеть способна создавать полноценные треки продолжительностью до трех минут.

Stable Audio 2.0 может генерировать оригинальные материалы на основе загруженных пользователем аудиозаписей в соответствии с подсказками на естественном языке. Утверждается, что от других аналогичных ИИ-моделей новая сеть отличается тем, что она создает композиции с полноценной структурой — вступлением, развитием и финалом. При этом поддерживаются стереофонические эффекты, а частота дискретизации достигает 44,1 кГц. Отмечается, что нейросеть способна генерировать звуки окружения, например, шум толпы или постукивания по клавиатуре. Также допускается формирование материалов на основе только текстовых подсказок.

Схема работы модели

Представленная ИИ-модель базируется на нейросети Stable Audio 1.0, которая дебютировала в сентябре 2023 года. Обе версии обучались на данных музыкальной библиотеки AudioSparx, содержащей более чем 800 тыс. аудиофайлов, включая музыку, звуковые эффекты и звучания отдельных инструментов, а также соответствующие текстовые метаданные. При этом всем исполнителям предоставляется возможность запретить использование своих произведений для обучения ИИ-моделей.

Правила сервиса запрещают использовать нейросеть Stable Audio 2.0 для генерации треков на основе аудиоматериалов, защищенных авторским правом. Для соблюдения этого требования и предотвращения нарушений применяются расширенные средства распознавания контента. Новая ИИ-модель является полностью бесплатной: она доступна через сайт Stability AI, а также через программный интерфейс (API).^[1]