MGIE (MLLM-Guided Image Editing)

Продукт
Разработчики: Apple
Дата премьеры системы: февраль 2024 г.
Отрасли: Интернет-сервисы,  Информационные технологии

2024: Анонс продукта

В феврале 2024 года запущена открытая нейросеть MGIE (MLLM-Guided Image Editing), предназначенная для редактирования фотографий по текстовым запросам. Технология разработана компанией Apple совместно с исследователями Калифорнийского университета в Санта-Барбаре.

Из описания к MGIE на GitHub следует, что разработка представляет собой мультимодальную, которая способна работать с несколькими типами данных. К примеру, нейросеть может распознавать команды на естественном языке, образы на исходной фотографии и генерировать новые объекты с помощью диффузионной модели. Такой подход позволяет объединить несколько задач в одной нейросети.

Запущена открытая нейросеть MGIE

MGIE также может заменить фон изображения, добавить или удалить объекты, а также применить «художественные эффекты» и цветовые фильтры. С помощью неё можно редактировать мелкие детали фотографии — лицо, волосы, одежду, аксессуары.

При редактировании фотографии с помощью MGIE пользователям просто нужно ввести то, что они хотят изменить в изображении. В статье приведен пример с пиццей пепперони. Подсказки «сделай это более здоровым» навела ИИ на мысль добавить на фото больше овощных начинок. Фотография тигров в Сахаре выглядит темной, но после того, как модели сказали «имитировать больше света», изображение стало ярче.

MGIE способна улучшать общее качество фотографии, включая яркость, контраст, четкость и баланс цвета. Она может применять художественные эффекты, такие как рисование, живопись и карикатуры.

Исходный код нейросети выложен на GitHub. Пользователи могут протестировать возможности MGIE онлайн через на платформе Hugging Face Spaces (ссылка), предназначенной для совместной работы над проектами в области машинного обучения. Не исключено, что Apple будет внедрить технологию в свои продукты.[1]

Примечания