Оглавление
За последнее время появляется все больше и больше онлайн сервисов с искусственным интеллектом, которые способны создавать изображения по текстовым запросам.
Они вполне успешно способны визуализировать ваши идеи и концепты в считанные секунды, но их выбор достаточно велик. В этой статье мы рассмотрим несколько популярных нейросетей для генерации изображений и сравним все их плюсы и минусы.
Про нейросети
Нейросети работают по принципу человеческого мозга. Они следуют строго заданным алгоритмам и формулам составляя порядок действий исходя из предыдущего опыта, Искусственный интеллект получает и анализирует вводные данные и выстраивает оптимальный процесс для выполнения поставленных задач. Подобные действия требуют больших технических мощностей, и на текущий момент они достаточно ресурсоемкие.
Уже сейчас нейросети способны распознавать и заменять лица, диагностировать болезни на основе вводных данных, синтезировать голос, выполнять роль голосовых помощников, создавать изображения или предоставлять относительно достоверные ответы на заданные вопросы. В последнее время нейросети находят применение в музыке, создании сценариев для фильмов, написании стихов или визуализации проектов.
Что касается генераторов изображений, то они способны создавать простые и сложные пейзажи, объекты и 3D модели даже при ограниченном текстовом запросе. Однако полученные результаты можно с легкостью дополнять добавляя новые ключевые подсказки.
DALL-E 2
DALL-E был разработан компанией OpenAI в 2021 году. Эта нейросеть способна создавать изображение по текстовым запросам. Она основана на модифицированной модели GPT-3, которая способна распознавать текст и совмещать его с визуальными параметрами.
Вторая версия DALL-E 2 была запущена для пользователей в 2022 году и она получила возросшее качество получаемых изображений. Но пока что DALL-E 2 еще не совершенен. Несмотря на то, что эта нейросеть успешно генерирует пейзажи и объекты, она не умеет работать с текстом и не всегда правильно работает с лицами людей.
Воспользоваться генератором изображений можно на официальном сайте DALL·E 2. Регистрация абсолютно бесплатна, но пользователям дается ограниченное количество «кредитов» для генерирования изображений. 115 кредитов предлагают купить за $15, но у владельцев российских банковских карт могут возникнуть трудности при оплате.
Плюсы:
- Генерирует несколько примеров на основе запроса
- Быстрая обработка и модификация параметров
- Запросы выводятся в высоком качестве
- Можно загрузить свое изображение
Минусы:
- Количество запросов ограничено платными кредитами
- Работает только с англоязычными ключевыми словами
- Плохо распознает лица и мелкие детали
RuDALL-E
RuDall-E — российский аналог нейросети созданный при содействии команд Sber AI и SberCloud. Эта нейронная сеть работает по тому же принципу, как и DALL-E 2, но поддерживает несколько дополнительных генеративных моделей. За основу взята стандартная модель DALL-E, которую затем модифицировали и перевели на русский язык.
Эта модель успешно справляется с простыми текстовыми запросами на русском или другом языке при помощи новейшей сети — Kandinsky 2.0. Она способна генерировать красочные изображения на различные темы по текстовому запросу на разных языках.
Следующая модель — Malevich (XL) создает изображения на общую тематику. В основном эта модель подходит для создания уникальных пейзажей или объектов, которые не встречаются в реальном мире.
Последняя модель — Emojich поможет создать уникальные эмодзи по текстовым запросам. Их можно использовать в дальнейшем в качестве стикеров или прототипов дизайна.
Однако результаты некоторых генеративных моделей оставляют желать лучшего — в некоторых местах картинка может быть чересчур размазанной, а где-то нарушена форма объекта.
Опробовать данный сервис можно на официальном сайте Russian DALL-E. Проект не требует регистрации пользователей и не имеет платной бизнес-модели. На сайте также имеется собственная галерея работ для ознакомления с каждым модулем.
Плюсы:
- Сервис полностью бесплатный
- Поддержка запросов на русском языке
- Множество арт-стилей для генерации
- Несколько генеративных моделей для разных задач
Минусы:
- Выдает только один результат
- Обработка некоторых запросов может занимать до 30 минут
- Не умеет работать с лицами и искажает многие объекты
GLIDE
Еще один проект от OpenAI — GLIDE. Эта генеративная модель схожа по производительности с DALL-E, но ее можно применять в основном для изменения существующих изображений. Нейросеть умеет дополнять изображения новыми объектами поверх текущей картинки, а также добавлять тени, отражения или другие спецэффекты.
GLIDE также способен превращать примитивные рисунки в фотореалистичные фотографии. На текущий момент у данной модели отсутствует сайт, через который бы можно было генерировать изображения, но она находится в открытом доступе и любой может опробовать эту технологию самостоятельно.
Исходный код этой генеративной модели можно скачать из GitHub.
Плюсы:
- Создание фотореалистичных изображений
- Высокая скорость обработки
- Умеет дополнять изображения новыми деталями
Минусы:
- Сложность в установке и использовании
- Нет веб-интерфейса
- Финальный результат зависит от качества изображения и мелких деталей
Midjourney
Midjourney — Проект от независимой исследовательской компании, который способен создавать фотореалистичные изображения, красочных персонажей и фентезийные миры в высоком разрешении. На текущий момент Midjourney является самой успешной нейросетью, которая пользуется колоссальным спросом среди художников, дизайнеров и обычных пользователей.
Midjourney пока не имеет веб-интерфейса и работает исключительно через официальный Discord сервер. Сам сайт компании ограничен лишь документацией и инструкцией по использованию.
Пользователи могут отправлять текстовые запросы на английском языке Discord боту и затем получать на выходе четыре пре-рендера результатов. За этим процессом можно наблюдать прямо в окне переписки, и видеть результаты запросов от других пользователей. На готовые результаты можно также ставить оценку через эмодзи.
После отправки запроса и некоторого ожидания, пользователь может выбрать наилучший вариант и получить финальный результат в высоком качестве.
Midjourney работает по подписочной модели. Регистрация осуществляется через Discord аккаунт. Новым пользователям доступна ознакомительная версия, в которой время на генерирование изображений ограничено 25 минутами. По истечению 25 минут, пользователь не сможет отправлять новые запросы боту. Платная версия стоит от $10 до $60 и включает в себя дополнительное время отправку запросов через личные сообщения.
Плюсы:
- Создание красочных изображений превосходного качества
- Прямое взаимодействие с ботом через Discord
- Четыре результата на выбор
Минусы:
- Нет веб-интерфейса
- Текстовые запросы только на английском языке
- Триал версия ограничена 25 минутами — требуется подписка для продолжения работы
GauGAN 2
GauGAN — это собственная разработка от компании Nvidia. Эта нейронная сеть генерирует высококачественные изображения наподобие DALL-E 2 и имеет интуитивно понятный редактор работающий прямо в браузере.
Пользователи могут вводить текстовые запросы и получать в реальном времени изображение подходящее под запрос. Затем, при помощи визуального редактора и встроенных кистей можно изменять представленное изображение в браузере или дополнять его ключевыми словами.
В самом GauGAN редакторе можно пройти обучение или посмотреть видеоролик, чтобы научиться работать с этим приложением. В основном оно подойдет тем, кто планирует работать с фотореалистичными пейзажами.
Работать с мелкими объектами нейросеть не умеет. К сожалению данное приложение не поддерживает русскоязычный интерфейс и запросы, а некоторые функции могут показаться достаточно запутанными для неподготовленного пользователя.
В дополнение к веб-редактору, можно загрузить отдельное приложение для Windows — Nvidia Canvas. Оно имеет идентичный интерфейс и предлагает более расширенный набор настроек.
Проект абсолютно бесплатен и не требует регистрации пользователей. Опробовать данный генератор изображений можно на официальном сайте GauGAN 2.
Плюсы:
- Гибкий визуальный редактор
- Имеется приложение для Windows
- Не требуется регистрация
- Возможность загружать собственные изображения
Минусы:
- Нет поддержки русского языка
- Могут возникнуть сложности при первом использовании редактора
- Генерация ограничена природными ландшафтами
Dream by WOMBO
Dream by Wombo — еще одна нейросеть, которая способна создавать и редактировать изображения по текстовым запросам. Проект имеет собственные приложения для iOS и Android, а также веб-версию работающую из браузера. В основном эта нейросеть может пригодиться для социальных сетей (Vk, Instagram, TikTok), где контент размещается в вертикальном формате.
В редакторе можно указывать текстовый запрос до 200 символов (на английском языке) и выбирать стили оформления. Большинство стилей скрыто за платной подпиской, но на первое время будет достаточно и стандартных стилей для создания фотореалистичных изображений.
Кроме этого можно загрузить собственное изображение и добавить на него необходимые фильтры или спецэффекты по текстовым запросам.
Помимо ограничения в 200 символов, нейросеть может генерировать только один результат (вместо 4-х для премиум пользователей). Премиум подписку предлагают купить за $10 в месяц, или купить пожизненный доступ за $170.
Плюсы:
- Красивый и понятный интерфейс
- Есть приложение для смартфонов и веб-версия
- Умеет работать с лицами и мелкими объектами
- Быстрая генерация изображений без ожидания
Минусы:
- Нет поддержки русского языка
- Многие функции доступны только премиум-пользователям
- Ограничение ключевых слов в 200 символов
- Выдает только один результат