Научное подразделение Apple представило новую модель, которая позволяет пользователям редактировать изображения при помощи текстовых запросов.
Мультимодальная модель искусственного интеллекта MGIE была разработана совместно с Калифорнийским университетом в Санта-Барбаре. Она умеет обрезать, изменять размер, переворачивать, добавлять фильтры к изображениям и скрывать лишние объекты.
Модель объединяет два различных способа использования многомодальных языковых моделей. Она учится интерпретировать запросы пользователей. Затем она «представляет» себе, как будет выглядеть изменённая картинка.
При редактировании фото с помощью MGIE пользователям достаточно написать, что они хотят изменить. Apple сделала MGIE доступной для скачивания через GitHub. Пока что компания не сообщает, в каких проектах сможет пригодиться эта многомодальная модель.
Некоторые платформы для генерации изображений, такие как DALL-E 3 от OpenAI, могут выполнять простые задачи редактирования фотографий на основе текстовых запросов. Создатель Photoshop, компания Adobe, к которой большинство людей обращается для редактирования изображений, также имеет собственную модель редактирования с использованием Firefly AI.
В отличие от Microsoft, Meta или Google, у Apple не так много проектов, связанных с ИИ. Однако генеральный директор Apple, Тим Кук заявил, что компания планирует добавить больше ИИ-инструментов на свои устройства в этом году.