DALL-E 3 от OpenAI: как пользоваться нейросетью для генерации картинок?

Краткая история Dalle-3

В сентября 2023 года компания Open AI, создатель популярнейшего чат-бота ChatGPT, представила новую версию нейросети DALL-E 3, способную генерировать изображения почти фотографического качества, точно следуя заданным инструкциям. В этой статье мы разберём её преимущества и узнаем, возможно ли пользоваться DALL-E 3 из России.

Первая итерация, DALL-E, была представлена OpenAI, в январе 2021 года. Эта система, названная в честь художника Сальвадора Дали и робота WALL-E из популярного мультфильма, демонстрировала способность генерировать уникальные изображения из текстовых описаний. Основываясь на варианте трансформерной модели GPT-3, DALL-E с помощью 12 миллиардов встроенных параметров, показала зрителям близкие к реалистичным и анимированные изображения, объединяющие элементы из разных запросов.

В апреле 2022 года OpenAI объявила о выпуске DALL-E 2, более мощной версии. По сравнению с оригиналом, улучшилось качество и детализация изображений. DALL-E 2 представила новые возможности, такие как редактирование частей существующих изображений и создание изображений на основе комбинации текста и визуальных входов.

Доступ к Dall-E 2 изначально был возможен через список ожидания. Так как немногим пользователям удавалось его получить, в интернете эта версия обсуждалась крайне редко. Однако в сентябре 2022 года нейросеть стала доступной для всех: DALL-E 2 появилась на сайте OpenAI и позже была интегрирована в поисковик Bing.

Публичный доступ к DALL-E 3 добавили в ChatGPT 4 в конце октября 2023 года.

 

Особенности и преимущества

Запрос в Dalle-3

Запрос: бьюти-коворкинг WOW Space, нарисованный акварелью

Простой промтинг

 Промтинг – процесс подачи входных данных (промптов) в систему искусственного интеллекта, чтобы вызвать или направить определенный ответ или действие. Промт состоит из одного-двух предложений, что инициирует генерацию текста нейросетью.

Для другой популярной нейросети для генерации картинок – Midjourney писать запрос необходимо на английском языке, следуя строгим правилам синтаксиса, подробно описывая детали и дополнительные параметры. Промты в DALL-E 3 могут содержать абстрактную информацию – нейросеть поддерживает русский язык и понимает запросы на естественном языке простыми словами. Все дополнительные детали алгоритм дорабатывает самостоятельно. Текстовый ИИ-модуль, встроенный в нейросеть ChatGPT-4, анализирует ваш запрос согласно встроенной инструкции и адаптирует его для оптимизации восприятия алгоритмом, отвечающим за создание изображений. Об этом в следующем разделе.

Интеграция с другими продуктами Open AI

Когда пользователи обращаются к ChatGPT-4 с запросом на создание изображения, ChatGPT-4 использует встроенный интерфейс для взаимодействия с DALL-E 3. Текстовая нейросеть ChatGPT-4 может формулировать промпты или запросы на основе текстовых данных и отправлять их DALL-E 3. После получения промпта от ChatGPT-4, DALL-E 3 обрабатывает его и генерирует соответствующее изображение. Затем полученная картинка передается обратно в ChatGPT-4, который в свою очередь предоставляет его пользователю в ответ на его запрос. Пользователи могут давать обратную связь или попросить модифицировать картинку.

 
Медведь на Мальдивах

К каждой картинке Chat GPT-4 добавляет небольшое описание

Медведь в пастельных тонах

Чтобы скорректировать изображения не требуется составлять новый промт, достаточно описать необходимые детали простым языком

Высокое качество и детализация изображений

DALL-E 3, как и его предшественники, основан на архитектуре GPT (Generative Pre-trained Transformer), которая содержит миллиарды параметров, позволяющих нейросети обрабатывать и генерировать изображения с высокой степенью детализации.

Машинное обучение DALL-E 3 базируется на огромном массиве изображений и связанных с ними текстовых описаний. Благодаря этому модель углубленно анализирует контекст запроса и морфологию естественного языка, улавливая тонкие детали и нюансы.

Куры устроили бунт

Запрос: куры на заднем дворе устроили бунт

Лев Толстой как зеркало революции

Запрос: Лев Толстой, как зеркало Русской Революции. Нейросеть не забыла сгенерировать Дворцовую площадь и Эрмитаж – эпицентр революционных событий.

Запрос в Dalle-3 фотографической картинки

У нейросети можно запросить генерацию фотографической картинки. Здесь редактор делает выговор писателю

Нейросеть пока выдает себя при генерации фотореалистичных изображений. Так DALL-E 3 видит молодых людей, снятых на камеру Leica M11 Rangefinder

Как Dalle-3 генерирует изображения?

На reddit выложили инструкцию описывающую алгоритм, согласно которому нейросеть обрабатывает запрос. Вот её краткое содержание.

  • Dalle-3 автоматически переводит тексты с любого языка на английский, чтобы обработать запрос.
  • Нейросеть не может сгенерировать больше 4 картинок, даже если пользователь запросил больше.
  • Нельзя генерировать фотографии политиков и других известных личностей, а также реальных людей без их согласия. Поводом для запрета послужил скандал с картинками Папы Римского в пуховике Balenciaga и арестом Дональда Трампа, которые некоторые мировые СМИ выдали за оригинальные фото.
  • Если на картинке присутствуют люди, Dalle-3 создает изображения на основе гендерного и этнического разнообразия, опираясь на запрос.

Что нельзя сгенерировать?

  • Запрещено генерировать контент в стиле художников, чьи последние картины были написаны менее 100 лет назад. К примеру, картинки в стиле Пабло Пикассо, Сальвадора Дали и Энди Уорхола сгенерировать нельзя. Вместо них нейросеть с радостью создаёт картинки в стиле Винсента Ван Гога, Питера Брейгеля и Клода Моне.
  • Другие изображения, защищённые авторским правом: иллюстрации из книг, кадры из фильмов и телешоу. Запрет касается использования логотипов, например, вывеску корпорации Microsoft в центре Москвы нейросеть создавать отказалась.
  • Порнографические или сексуально эксплицитные материалы
  • Изображения, содержащие сцены насилия, жестокости, оскорблений.
  • Изображения, содержащие дискриминационные или унижающие человеческое достоинство элементы, включая расизм, сексизм и другие формы ненависти.
Картофельные чипсы в стиле Майкрософт

При этом Dalle-3 генерирует вариации вымышленных логотипов на брендинг компаний. Например, логотип картофельных чипсов в стиле Microsoft

Запрос в Dalle-3. Москва

Dalle-3 может обращаться к стилю художников, живших более 100 лет назад. На картинке – Москва, нарисованная в стиле Поля Гогена.

Запрос в Dalle-3: Леонардо Ди Каприо

Запрет касается только фотографических изображений. У нас получилось сгенерировать анимированного Леонардо Ди Каприо на рыбалке.

  • Изображения, содержащие сцены насилия, жестокости, оскорблений.
  • Изображения, содержащие дискриминационные или унижающие человеческое достоинство элементы, включая расизм, сексизм и другие формы ненависти.
  • Нейросеть не позволяет создавать фотографические изображения реальных людей без их согласия, особенно в компрометирующих контекстах.
  • Политические изображения: картинки, связанные с конкретными официальными лицами или событиями, которые могут быть восприняты как вмешательство в общественные процессы. Сгенерировать агитационный плакат с Эммануэлем Макроном в стиле советского авангарда у нас не получилось.

Как пользоваться Dalle-3?

В ChatGPT

  • Зайдите на сайт ChatGPT и зарегистрируйтесь. Если вы находитесь в России, для авторизации вам понадобится VPN и зарубежный номер мобильного телефона. Подробно о том, как пользоваться ChatGPT из России мы писали в этой статье.
  • Оформите платную подписку. В левом нижнем углу на иконке пользователя, откройте пункт «My Plan».
  • Выберите пункт «Upgrate to Pro». Стоимость подписки – 20 $ в месяц. Российский карты сервис ChatGPT не принимает.
интерфейс Dalle-3
Доступ к Dalle-3

Поздравляем у вас есть доступ к Dalle-3

  • Откройте новый чат в левом верхнем углу экрана.
  • Введите запрос в диалоговом окне.
ChatGPT и DALLE-3

Обратите внимание: DALLE-3 интегрирован в один чат с ChatGPT-4

Запрос в диалоговом окне DALLE-3

По умолчанию нейросеть генерирует картинку размером 1024х1024 пикселей

Через Bing Image Creator

Как и предыдущие версии, DALL-E 3 интегрирована в браузер Bing. Благодаря BingImage Creator пользоваться ей можно совершенно бесплатно. Для этого нужно сделать несколько простых шагов.

Bing Image Creator

Стартовая страница Bing Image Creator

  1. Включить VPN
  2. Создайте учётную запись Microsoft на сайте Bing
  3. Зайдите в Bing Image Creator, нажмите «Присоединиться и создать»

В день можно «быстро» сгенерировать 25 картинок. Затем генерация происходит в порядке очереди, но зато сэкономит вам 20 долларов в месяц.

Loading

Подпишитесь на рассылку

Другие статьи

Оставьте заявку

Мы свяжемся с вами в ближайшее время