Статья

Топ-5 нейросетей — как сгенерировать рисунок по описанию самостоятельно

13.01.2023 в 09:50

Наверняка многим хотелось попробовать самим вступить во взаимодействие с таким современным и непонятным «зверем», как нейросеть. Скорее даже «творческая нейросеть», потому что разновидности подобных обучаемых математических моделей вокруг нас уже давно. Распознавание лиц и речи, навигация и планирование, «умный дом» — ИИ помогает нам везде. При этом бытовые и технические нейросети несут в себе тот же принцип, что и программы по генерации изображений со Шреком в разных мирах или Гарри Поттером в СССР. Невероятно, но факт.

Бум на творческие нейросети начался в 2022 году и продолжается в 2023-м. Ежедневно в сети появляется множество сгенерированных искусственным интеллектом работ, которые обсуждаются, репостятся и транслируются СМИ. В комментариях на Cybersport.ru старожилы уже начали уставать от потока новостей про нейросети, однако зрительский интерес к ним все еще не падает: такие подборки просматривают с большим энтузиазмом, в особенности если они выполнены по популярным франшизам.

Твои первые «вау» — DALL·E 2 и манящая недоступность

Нейронная сеть DALL·E от компании OpenAI, разработанная при финансовой поддержке Microsoft, объединила творческий и технический миры. Созданная с помощью современных IT-умов, она начала получать информацию от признанных художников и литературных гениев, довольно быстро обучилась на этих данных и начала выдавать шедевры. Именно DALL·E показала, что генерация изображений по описанию — это возможное будущее творчества, хоть такая формулировка и пугает (или попросту выводит из себя) реальных художников и дизайнеров.

1/3
DALL·E 2 генерирует вот так: это уже не просто статичные кратинки, а полноценные картины или фотографии — зависит от запроса.

Подумайте: многие из нас могут описать словами персонажей, места и различные события, которые происходили только в воображении. А вот фотографировать сны и подкорку разума человечество пока не научилось (верю, что и до этого дойдет). И если ты не умеешь рисовать сам, то яркие визуальные идеи сложно реализовать в реальности без сторонней (и часто не только дорогостоящей, но и объективно слишком долгой) помощи. Было сложно к этому привыкнуть: теперь каждый может попробовать объяснить искусственному интеллекту идею, а он сгенерирует сколько угодно вариантов. Быстро. Бесплатно или за куда меньшие деньги, чем возьмет с вас настоящий творец. Нейросеть не устанет, будет вносить сколько угодно правок и никогда не обидится, если её работу в итоге заменят на другую в финальной версии продукта.

Проблема с DALL·E и её улучшенной версией под номером 2 — отсутствие доступа для всех желающих. В первую генерацию попасть можно было только после одобрения администрации, это был элитный клуб. Просочиться во вторую версию уже куда проще, нужно только зарегистрироваться на сайте, подтвердить номер телефона, и доступ к триалу (казалось бы) открыт. Однако пользователям из России в DALL·E 2 дороги нет: с телефонами, начинающимися на +7, она не работает, как и с подтверждением через бесплатные сервисы активаций. Даже если у вас есть товарищ, готовый подарить заветное СМС-сообщение, а на компьютере предусмотрительно установлен VPN, ничего не получится: подойдет только качественный платный канал со статичным IP-адресом.

Малевич — Сальвадор Дали с местным колоритом

Сальвадор Дали, в честь которого и была названа DALL·E, — это испанский живописец. Форма самого имени позаимствована у ВАЛЛ·И — робота из мультика. Русскоязычные создатели (в OpenAI их немало) быстро смекнули, что могут начать обучать собственную нейросеть тем же фокусам, что проделывает DALL·E, но на русском языке. Так появились несколько ответвлений, в том числе разрабатываемая с помощью Лаборатории по искусственному интеллекту Сбербанка ruDALL-E Malevich. Казимир Малевич, как все знают, советский художник-авангардист польского происхождения.

«Общаться» с ruDALL-E Malevich можно на русском языке в Telegram. При наличии аккаунта в мессенджере можно найти бота в поиске по названию нейросети, запустить его и начать генерировать контент. Или нажать вот сюда. Первые подборки изображений на Cybersport.ru были сгенерированы мною именно так. Многим не нравится слово «кринж», но если это не он, то что?

Заспамить бот ruDALL-E запросами не выйдет: нейросеть генерирует изображения по три штуки на один запрос, на каждый у нее уходит около трёх минут. Более быструю генерацию предлагают протестировать в приложении «Салют», но лично я им не пользовалась и посоветовать не могу. Хотите — протестируйте сами, тем более что бот в Telegram крайне настойчиво будет отправлять вас именно туда. Хотя то, что в «Салюте» нейросеть называется ruDALL-E Kandinsky, повергает меня в гомерический хохот искусствоведа.

Каждый раз, когда мне говорят, что Йеннифэр > Трисс, смотрю на этот шедевр Малевича от ruDALL-E

У российских IT-специалистов есть и браузерная версия нейросети. Если вам хочется вводить капчу при каждой генерации, то можете зайти вот сюда.

Королева нейросетей прямо сейчас — Midjourney

Нельзя сказать, что ruDALL-E — действительно хорошая замена DALL·E 2: качество изображений, во всяком случае от бота в Telegram, оставляет желать лучшего. А вот Midjourney, которая доступна в Discord, — это, по моему мнению, лучшая замена на текущий момент.

Получить доступ к Midjourney может каждый желающий, у которого есть профиль в Discord. Для этого потребуется зайти на сайт авторов нейронки, перейти по ссылке в версию программы на ПК и согласиться с правилами использования нейросети.

Бесплатно сгенерировать можно 20 изображений. По умолчанию на каждый текстовый запрос вы будете получать по четыре рисунка, которые впоследствии можно увеличить или перегенерировать. Пользоваться Midjourney среднестатистическому «юзверю» будет легко.

1/3
Йеннифэр из Венгерберга в нейросети Midjourney

У Midjourney изображения получаются отлично, в особенности если вы придете к ней с четким запросом, а не просто поглазеть и протестировать её лимиты. Чем больше уточняющих параметров по стилю вы укажете, тем интереснее получится результат. Советую, прежде чем тратить все попытки пробной версии, понаблюдать за другими пользователями, благо прокрутка всех «нубских» чатов идёт и днём, и ночью. Отследите, какие триггеры в запросах делают другие, что им выдает нейросеть, и используйте в своих текстовых описаниях.

Ну красиво же! Midjourney нарисовала (глаза не фиолетовые, не канон)

Есть и платная версия Midjourney, которая позволит генерировать больше картинок, но с оплатой из России будут проблемы. Если у вас нет альтернативного способа (средств, желания — нужное подчеркнуть) поддержать авторов нейросети, но очень хочется выйти за границы бесплатных 20 изображений, можете залететь в Discord под новой учетной записью. Не злоупотребляйте этим лайфхаком.

Проще простого — Stable Diffusion

Большинство доступных нейросетей с плюс-минус достаточным навыком для того, чтобы выдавать вам результаты согласно запросу, а не просто забрасывать кривыми и косыми портретами, требуют регистрации. Но не Stable Diffusion. Хотя её генерации далеки от шедевров, для человека, который хочет просто побаловаться, это идеальная нейросеть. Заходите в веб-версию на этот сайт, пишете свой запрос (на английском, но в данном случае подходит переводчик) и получаете четыре сгенерированных результата, увеличить которые можно одним нажатием. Качество 4K не получите, но для демонстрации персонажа в игре по типу D&D, например, этого будет достаточно.

Прекрасные арты — и даже без уточняющих тегов! Рисунок нейросети Stable Diffusion

Stable Diffusion страдает стандартными для художественных нейросетей «болезнями»: глаза на картинках с пометками «реализм» или «фотореалистичность» с шансом 90% будут косить, зрачки могут уплыть за ресничный край, а нос — треснуть пополам, словно мир в «Ночном дозоре». На артах всё куда лучше, так как рисованные модели, судя по всему, проще генерировать. Первые версии гениальной DALL·E тоже страдали проблемами с глазами и носом, а также дополнительными конечностями, но к этому моменту это почти исправлено. И даже Midjourney (при учете количества получаемых данных ежедневно) уже догоняет. Уверена, получится и у Stable Diffusion.

Еще одна простая и доступная — neural.love

В целом эта нейросеть ничем не отличается от своих «коллег» по цеху. Как и многие на данный момент, она уступает Midjourney в качестве и скорости, но доступна и проста в использовании. Очень удобно просто зайти и сразу начать генерировать контент, а не искать способ оплатить подписку или подобрать нужные слова для письма разработчикам.

1/3
Йеннифэр из аниме — такие рисунки нейросети тоже генерируют. Источник: neural.love

2/3
Йеннифэр в разных стилях от neural.love

Нейросети множатся и плодятся — это будущее!

Буквально перед публикацией этой статьи, уже на этапе верстки, коллега Сергей Lampochko Сергиенко принес в чат ссылку на еще несколько нейросетей, доступ к которым очень простой. Одна из них даже специализируется на порно, но её вам я не покажу. А вот Lexica — вполне достойный представитель своего семейства. У нее есть пара проблем: стиль изображения очень глянцевый, а некоторые изображения кажутся очень знакомыми.

Нейросеть нарисовала… или вы?

Хотя многие познакомились с нейросетями благодаря DALL·E, Midjourney и другим ИИ, которые создают изображения по описанию, на деле существует множество вариаций таких помощников во многих творческих делах. Иногда нейросети просто помогают дорисовать (или дописать) что-либо либо несут исключительно развлекательную функцию, параллельно обучаясь.

Если вам нужно схематичное изображение животного, растения или любого предмета, а нарисовать его самостоятельно вы попросту неспособны, то AutoDraw — лучший помощник. Он превращает совершенно непонятные и хаотичные линии в осмысленные рисунки. Нейросеть не всегда угадывает, что конкретно вы хотели нарисовать, но предоставляет вам самому возможность выбрать из предложенных вариантов интересующий эскиз.

Естественно, ни капли реализма в таких работах вы не найдете. Однако в качестве развлечения или для создания демонстрационных материалов на учебу или работу (если по какой-то причине взять обычные картинки из интернета не представляется возможным) инструмент отличный. Еще можно забавляться вместе с детьми, которые уже освоили ПК и имеют тягу к творчеству, но рисование не их конек. «Типичный детский рисунок» будет выглядеть забавно, если нейросеть поможет. Настя, 30 годиков.

Конечно, это не та нейросеть, которая сгенерирует за вас шедевр, к тому же база выдаваемых рисунков крайне ограничена. Это начинаешь замечать, если рисуешь много. Однако, учитывая скорость обучения нейросетей и различных аналогов, подобные помощники могут войти в привычную дизайнерскую рутину совсем скоро. Примечательно, что у большинства нейросетей пока нет претензий на авторские права, хотя для AutoDraw, например, стартовую галерею создавали реальные люди.

Этичность использования работ нейросетей в коммерческих целях, равно как и использование нейросетями чужих работ в качестве основы для нового рисунка, пока вопрос крайне дискуссионный. Если ИИ взял за основу найденный на DeviantArt портрет, но полностью перекроил его, — он нарушил авторские права владельца оригинала? Лично я бы скорее сказала да, чем нет, и мне видится, что нейросети, обучение которых проходит с помощью открытых источников и труда других людей, не могут впоследствии монетизировать сам контент. Однако и люди, которые пользуются изображениями нейросетей в коммерческих целях, не могут считать их собственностью. Например, продавать сгенерированные нейросетью рисунки на NFT-площадках или маркетплейсах — это мошенничество если не с юридической точки зрения, то как минимум с нравственной.

Если вы сами не против пообучать нейросеть взамен на дофамины, эндорфины и прочие приятности от организма, то добро пожаловать в Quick, Draw!. Эта нейросеть — усовершенствованный «крокодил» или бесконечное задание на рисование из игры «Активити». Компьютер загадывает вам слово или словосочетание, а вы должны за 20 секунд нарисовать это на белом листе. Нейросеть будет накидывать варианты, пытаясь сопоставить ваши каракули с теми, что хранятся у нее в базе, и теми, что рисовали другие игроки до вас.

За одну сессию вам предлагается нарисовать шесть предметов, животных или событий. Иногда задания очень простые (например, изобразить гвоздь), а порой — обескураживающие (как, черт побери, нарисовать миграцию животных за 20 секунд?!). Самый приятный бонус — в конце можно будет посмотреть, как именно рисуют другие пользователи. Естественно, всё анонимно, суть этого действия — понять, насколько вы совпадаете во взглядах на творчество с другими людьми. Нейросеть далеко не всегда будет отгадывать, что конкретно вы нарисовали, особенно если постараться выбирать для изображаемых объектов нестандартные ракурсы или намеренно пытаться её обмануть. Это весело и развивает воображение!