Как научиться писать промпты по чужим картинкам

Лого investbro.ru

Всем привет. У новичков часто возникают сложности с написанием промптов для генерации изображений в нейросетях Stable Diffusion и Midjourney. В этой статье я расскажу о том, как распознать содержимое любой картинки и получить промпт для генераций похожих изображений с помощью img2txt.

img2txt – так называется процесс преобразования изображений в текст. С помощью такой простой манипуляции мы можем получить готовое текстовое описание (промпт), которое можно будет потом использовать для создания новых похожих картинок.

Итак, нам нужно понять, как нейросети видят содержимое того или иного изображения, а потом самостоятельно сделать так же.

В Телеграм-боте @yes_ai_bot есть специальная функция распознавания промпта по картинке. Она может по запросу пользователя отправить любое загруженное изображение на распознавание в нейросеть, которая в свою очередь сообщит, что именно изображено на картинке.

Именно это потом можно будет применять в качестве промпта для следующих генераций.

Только следует помнить о том, что такое распознавание не дает 100 % гарантии того, что новая картинка будет в точности такая же как исходник.

Вот, взгляните на пример:

Читайте также:

Текст на картинке – это действие той самой функции img2txt, которая помогла перевести изображение в текст.

Итак, что может увидеть нейросеть на картинке:

  • освещение – например, темно, яркий свет и т.п.;
  • погоду – например, идет дождь / снег, светит солнце;
  • положение камеры относительно изображенных объектов;
  • цветовую гамму – например, цветное изображение, черно-белое;
  • яркость, контрастность;
  • микро- и макроэлементы;
  • людей и их эмоции;
  • имя художника;
  • название стиля.

Как получить текстовое описание из картинки или фотографии-исходника:

  1. Заходим в Телеграм-бот @yes_ai_bot.
  2. Отправляем боту нашу картинку, которую нам нужно распознать и «перевести» в промпт. Сделать это можно нажав на значок скрепки рядом с полем для ввода сообщений.
  3. После загрузки изображения мы увидим по ним пункты меню, где нужно выбрать «Распознать промпт».
  4. Все готово. Осталось подождать результат. Это может занять до нескольких минут.

Итак, нейросеть распознала на картинке следующее текстовое описание:

«a man in a suit and tie looking at the camera with a serious look on his face and chest, Anthony Angarola, realistic shaded perfect face, a character portrait, figurativism»

Передаем текст Гугл-переводчику и получаем перевод на русский:

«мужчина в костюме и галстуке смотрит в камеру с серьезным выражением лица и груди, Энтони Ангарола, идеальное реалистично закрашенное лицо, портрет персонажа, фигуративизм»

Таким образом, нейросети довольно неплохо удалось справиться с нашим заданием. Она описала все, что находится на изображении, подметила детали и даже направление живописи, которой, по ее мнению, соответствует данная фотография.

А вот кто такой Энтони Ангарола, если на фотографии мы видим актера Кевина Спейси?

Дело в том, что Энтони Ангарола – это американский художник и гравер, и искусственный интеллект счел, что его картины очень похожи на стиль того изображения, который мы загрузили.

Кстати, как вы видите на предыдущем изображении, под прописанным промптом есть кнопочка «Сгенерировать». Если ее нажать, то мы получим новое изображение, которое будет создано нейросетью именно по этому текстовому описанию.

Как я и говорил, новое изображение может быть совсем не таким, как исходник. Однако, все перечисленные в промпте черты будут присутствовать.

Также хочу напомнить о том, что результат генерации изображений зависит не только от промпта, но и от настроек и стилей, которые установил пользователь.

В моем блоге есть уже целая серия образовательных публикаций о работе с нейросетью Stable Diffusion. В том числе:

Обязательно подписывайтесь на мой телеграм канал и учитесь вместо со мной.

До скорого!

Читайте также: 
Комментарии к статье: 0
Добавить комментарий
:grinning: :grining-smiling: :tears-of-joy: :smile-open-mouth: :tall-eyes-open-mouth: :cold-sweat: :scrunched-closed-eyes: :halo: :winking: :rosy-cheeks: :slightly-smiling: :tongue: :relieved: :heart-eyes: :sunglasses:
* Нажимая на кнопку "Отправить", я даю согласие на рассылку, обработку персональных данных и принимаю политику конфиденциальности.