DALL-E 3 от OpenAI: как пользоваться нейросетью для генерации картинок?
Краткая история Dalle-3
В сентября 2023 года компания Open AI, создатель популярнейшего чат-бота ChatGPT, представила новую версию нейросети DALL-E 3, способную генерировать изображения почти фотографического качества, точно следуя заданным инструкциям. В этой статье мы разберём её преимущества и узнаем, возможно ли пользоваться DALL-E 3 из России.
Первая итерация, DALL-E, была представлена OpenAI, в январе 2021 года. Эта система, названная в честь художника Сальвадора Дали и робота WALL-E из популярного мультфильма, демонстрировала способность генерировать уникальные изображения из текстовых описаний. Основываясь на варианте трансформерной модели GPT-3, DALL-E с помощью 12 миллиардов встроенных параметров, показала зрителям близкие к реалистичным и анимированные изображения, объединяющие элементы из разных запросов.
В апреле 2022 года OpenAI объявила о выпуске DALL-E 2, более мощной версии. По сравнению с оригиналом, улучшилось качество и детализация изображений. DALL-E 2 представила новые возможности, такие как редактирование частей существующих изображений и создание изображений на основе комбинации текста и визуальных входов.
Доступ к Dall-E 2 изначально был возможен через список ожидания. Так как немногим пользователям удавалось его получить, в интернете эта версия обсуждалась крайне редко. Однако в сентябре 2022 года нейросеть стала доступной для всех: DALL-E 2 появилась на сайте OpenAI и позже была интегрирована в поисковик Bing.
Публичный доступ к DALL-E 3 добавили в ChatGPT 4 в конце октября 2023 года.
Особенности и преимущества Dall-E 3
Запрос: бьюти-коворкинг WOW Space, нарисованный акварелью
Простой промтинг
Промтинг – процесс подачи входных данных (промптов) в систему искусственного интеллекта, чтобы вызвать или направить определенный ответ или действие. Промт состоит из одного-двух предложений, что инициирует генерацию текста нейросетью.
Для другой популярной нейросети для генерации картинок – Midjourney писать запрос необходимо на английском языке, следуя строгим правилам синтаксиса, подробно описывая детали и дополнительные параметры. Промты в DALL-E 3 могут содержать абстрактную информацию – нейросеть поддерживает русский язык и понимает запросы на естественном языке простыми словами. Все дополнительные детали алгоритм дорабатывает самостоятельно. Текстовый ИИ-модуль, встроенный в нейросеть ChatGPT-4, анализирует ваш запрос согласно встроенной инструкции и адаптирует его для оптимизации восприятия алгоритмом, отвечающим за создание изображений. Об этом в следующем разделе.
Интеграция с другими продуктами Open AI
Когда пользователи обращаются к ChatGPT-4 с запросом на создание изображения, ChatGPT-4 использует встроенный интерфейс для взаимодействия с DALL-E 3. Текстовая нейросеть ChatGPT-4 может формулировать промпты или запросы на основе текстовых данных и отправлять их DALL-E 3. После получения промпта от ChatGPT-4, DALL-E 3 обрабатывает его и генерирует соответствующее изображение. Затем полученная картинка передается обратно в ChatGPT-4, который в свою очередь предоставляет его пользователю в ответ на его запрос. Пользователи могут давать обратную связь или попросить модифицировать картинку.
К каждой картинке Chat GPT-4 добавляет небольшое описание
Чтобы скорректировать изображения не требуется составлять новый промт, достаточно описать необходимые детали простым языком
Высокое качество и детализация изображений
DALL-E 3, как и его предшественники, основан на архитектуре GPT (Generative Pre-trained Transformer), которая содержит миллиарды параметров, позволяющих нейросети обрабатывать и генерировать изображения с высокой степенью детализации.
Машинное обучение DALL-E 3 базируется на огромном массиве изображений и связанных с ними текстовых описаний. Благодаря этому модель углубленно анализирует контекст запроса и морфологию естественного языка, улавливая тонкие детали и нюансы.
Запрос: куры на заднем дворе устроили бунт
Запрос: Лев Толстой, как зеркало Русской Революции. Нейросеть не забыла сгенерировать Дворцовую площадь и Эрмитаж – эпицентр революционных событий.
У нейросети можно запросить генерацию фотографической картинки. Здесь редактор делает выговор писателю
Нейросеть пока выдает себя при генерации фотореалистичных изображений. Так DALL-E 3 видит молодых людей, снятых на камеру Leica M11 Rangefinder
Как Dall-E-3 генерирует изображения
На reddit выложили инструкцию описывающую алгоритм, согласно которому нейросеть обрабатывает запрос. Вот её краткое содержание.
- Dalle-3 автоматически переводит тексты с любого языка на английский, чтобы обработать запрос.
- Нейросеть не может сгенерировать больше 4 картинок, даже если пользователь запросил больше.
- Нельзя генерировать фотографии политиков и других известных личностей, а также реальных людей без их согласия. Поводом для запрета послужил скандал с картинками Папы Римского в пуховике Balenciaga и арестом Дональда Трампа, которые некоторые мировые СМИ выдали за оригинальные фото.
- Если на картинке присутствуют люди, Dalle-3 создает изображения на основе гендерного и этнического разнообразия, опираясь на запрос.
Что нельзя сгенерировать?
- Запрещено генерировать контент в стиле художников, чьи последние картины были написаны менее 100 лет назад. К примеру, картинки в стиле Пабло Пикассо, Сальвадора Дали и Энди Уорхола сгенерировать нельзя. Вместо них нейросеть с радостью создаёт картинки в стиле Винсента Ван Гога, Питера Брейгеля и Клода Моне.
- Другие изображения, защищённые авторским правом: иллюстрации из книг, кадры из фильмов и телешоу. Запрет касается использования логотипов, например, вывеску корпорации Microsoft в центре Москвы нейросеть создавать отказалась.
- Порнографические или сексуально эксплицитные материалы
- Изображения, содержащие сцены насилия, жестокости, оскорблений.
- Изображения, содержащие дискриминационные или унижающие человеческое достоинство элементы, включая расизм, сексизм и другие формы ненависти.
При этом Dalle-3 генерирует вариации вымышленных логотипов на брендинг компаний. Например, логотип картофельных чипсов в стиле Microsoft
Dalle-3 может обращаться к стилю художников, живших более 100 лет назад. На картинке – Москва, нарисованная в стиле Поля Гогена.
Запрет касается только фотографических изображений. У нас получилось сгенерировать анимированного Леонардо Ди Каприо на рыбалке.
- Изображения, содержащие сцены насилия, жестокости, оскорблений.
- Изображения, содержащие дискриминационные или унижающие человеческое достоинство элементы, включая расизм, сексизм и другие формы ненависти.
- Нейросеть не позволяет создавать фотографические изображения реальных людей без их согласия, особенно в компрометирующих контекстах.
- Политические изображения: картинки, связанные с конкретными официальными лицами или событиями, которые могут быть восприняты как вмешательство в общественные процессы. Сгенерировать агитационный плакат с Эммануэлем Макроном в стиле советского авангарда у нас не получилось.
Как пользоваться Dall-E 3 и запустить бесплатно
В ChatGPT
- Зайдите на сайт ChatGPT и зарегистрируйтесь. Если вы находитесь в России, для авторизации вам понадобится VPN и зарубежный номер мобильного телефона. Подробно о том, как пользоваться ChatGPT из России мы писали в этой статье.
- Оформите платную подписку. В левом нижнем углу на иконке пользователя, откройте пункт «My Plan».
- Выберите пункт «Upgrate to Pro». Стоимость подписки – 20 $ в месяц. Российский карты сервис ChatGPT не принимает.
Поздравляем у вас есть доступ к Dalle-3
- Откройте новый чат в левом верхнем углу экрана.
- Введите запрос в диалоговом окне.
Обратите внимание: DALLE-3 интегрирован в один чат с ChatGPT-4
По умолчанию нейросеть генерирует картинку размером 1024х1024 пикселей
Через Bing Image Creator
Как и предыдущие версии, DALL-E 3 интегрирована в браузер Bing. Благодаря BingImage Creator пользоваться ей можно совершенно бесплатно. Для этого нужно сделать несколько простых шагов.
Стартовая страница Bing Image Creator
- Включить VPN
- Создайте учётную запись Microsoft на сайте Bing
- Зайдите в Bing Image Creator, нажмите «Присоединиться и создать»
В день можно «быстро» сгенерировать 25 картинок. Затем генерация происходит в порядке очереди, но зато сэкономит вам 20 долларов в месяц.