Как создать обложку с помощью нейросетей

Допустим, у нас есть текст, который мы хотим опубликовать на каком-то «самиздатовском» сайте, и нам нужна для него обложка. Или же мы озвучили свой текст и хотим выложить свою озвучку на видеохостинг, для чего нужно превратить её в видео — а для этого опять же нужна картинка-обложка, которая превратится в видеоряд (и она же будет представлять вашу работу как превьюшка-миниатюра).

Для книжной обложки нужно вертикальное изображение с соотношением сторон 2:3, для видео — горизонтальное изображение с соотношением 16:9. На изображении, очевидно, должно присутствовать название истории с именем автора, а также какая-то картинка, имеющая отношение к само́й истории. Также для видео желательно, чтобы в правом нижнем углу ничего значимого не было: хостинги имеют обыкновение накладывать туда цифры хронометража.

В наши дни достаточно нетрудно самостоятельно создать такую обложку за тридцать-сорок минут, даже не обладая какими-то художественными талантами. В этом нам помогут нейросети.

Что понадобится

Во-первых, доступ к интернету и современный браузер, чтобы можно было пользоваться публично доступными нейросетями.

Во-вторых, какой-нибудь графический редактор, умеющий обрезать изображения под нужные пропорции, накладывать текст, и имеющий какие-то базовые возможности ретуши. Универсальный бесплатный и мощный вариант под все платформы — GIMP. Платных вариантов превеликое множество, мой выбор — Movavi Photo Editor (сделано российскими разработчиками, так что честно купить проблем нет, своих денег однозначно стоит). Есть версии под Windows и MacOS, и этот редактор ценен тем, что умеет довольно интеллектуально удалять с изображений посторонние объекты. В принципе, есть немало бесплатных онлайн-инструментов для редактирования изображений, но по моему глубокому убеждению, это не то, чем следует заниматься удалённо через сеть.

В-третьих, нужны шрифты, подходящие для надписей на обложках. Что-то с простыми хорошо различимыми начертаниями без мелких деталей. Здесь у всех свои вкусы — шрифтов в сети много, и каждый без труда найдёт себе что-то подходящее под свои запросы. Можно вообще взять шрифт, характерный именно для нужной франшизы, если вам удастся такой отыскать.

Предупреждение

Всё, что рассказано ниже, относится ко времени написания статьи, то есть к лету 2024 года! Вполне возможно, что вы при чтении столкнётесь с уже успевшей измениться ситуацией… причём изменения могут случиться быстро и в любую сторону.

Нейросети

Нейросеть — это та штука, которая создаёт изображения по текстовым описаниям. Нас, разумеется, в первую очередь интересуют те, что доступны свободно и бесплатно, на русском языке и без особых танцев с бубном. Важно ещё и то, что для создания иллюстраций к фанфикам искусственный интеллект должен знать что-то о соответствующих персонажах…

Fusion Brain. Онлайн-инструмент от Сбербанка, основанный на нейросети «Кандинский» (в свою очередь, основанной на движке DALL-E). Требует регистрации с подтверждением электронной почты. Доступен через веб-интерфейс без ограничений, через телеграм-бот и приложение для iOS доступен только в режиме генерации. Плюсы: неплохие возможности по дорисовыванию и комбинированию изображений. Минусы: не шибко богатые знания о персонажах и фэндомах и дурацкие ограничения с не всегда понятной логикой.

Шедеврум. Сервис от Яндекса, основанный на нейросети «YandexART» (неизвестно на каком движке, разработчики не говорят). По сути, нечто вроде специализированной социальной сети для любителей генерировать изображения по описаниям. Требует наличия Яндекс-аккаунта, который регистрируется без проблем. Доступен через веб-интерфейс с ограничениями (не более пяти генераций в сутки), через приложения для iOS/iPadOS/Android без ограничений. Дорисовывать и комбинировать изображения не умеет, только генерирует. Плюсы: сохраняет результаты предыдущих генераций (хотя добраться до своих старых картинок может потребовать изрядного времени). Минусы: часто тормозит и имеет мерзкую привычку лепить на картинку свой штамп при её сохранении (хотя есть способы это обойти, или можно убрать в фоторедакторе). База знаний о персонажах и фэндомах средняя.

Copilot Designer. Инструмент генерации изображений от Microsoft (тоже на DALL-E). Требует наличия тамошней учётной записи и из РФ доступен только через VPN, хотя русский язык вполне понимает. Доступен через веб-интерфейс с символическими ограничениями (после 15 генераций в сутки скорость работы чуть снижается), имеет мобильное приложение (требующее для работы из РФ изрядных танцев с бубном). Плюсы: хорошее знание англоязычных фэндомов и персонажей, хорошее качество картинок, все результаты некоторое время сохраняются. Минусы: собственно, танцы с бубном для доступа (хотя здесь они ещё терпимы).

Ограничения по контенту

Публичные нейросети имеют достаточно строгие ограничения на содержимое запросов, и в этом нет ничего удивительного. Общее правило заключается в том, что блокируются запросы на генерацию «взрослого» контента, на войну/насилие, на религиозные аспекты… Периодически находятся хитрецы, которые изыскивают способ обойти тот или иной запрет, после чего система фильтрации совершенствуется, после чего всё начинается по новой.

Это всё звучит логично, и запросы по известным литературно-художественным произведениям без явно выраженного экстрима обычно проблем не вызывают, но…

Но имейте в виду, что у вас может не получиться добавить на требуемый рисунок, например, шаолиньского монаха — слово «монах» связано с религией. Или бравого солдата Швейка — здесь сработает слово «солдат». В общем, будьте готовы, что ваш запрос могут по каким-то причинам завернуть, и вам придётся ломать голову над тем, почему это произошло, и как-то обходиться альтернативными описаниями.

Иногда обойти ограничение удаётся, если добавить к запросу уточнение типа «карикатура» или «мультфильм», но никаких гарантий нет.

Также нужно быть готовым к тому, что зарубежная нейросеть просто не знает персонажа из русской книги или русского фильма. Или может возникнуть коллизия, и вместо «великого комбинатора» Остапа Бендера вы запросто получите его тёзку-робота из «Футурамы».

В общем, вас предупредили.

Начало работы

Как мы помним, нам нужно изображение 2:3 для «книги» и 16:9 для «видео». Некоторые нейросети позволяют задать пропорции для генерации, но я рекомендовал бы начинать с квадрата, то есть с соотношений 1:1. На то есть несколько причин.

Во-первых, квадрат можно нарастить хоть горизонтально, хоть вертикально, и тем самым получить два варианта обложки с одинаковым главным элементом. Тогда как сделать «видео» из «книги» (или наоборот) гораздо сложнее. Во-вторых, нам для наложения надписей нужна будет «малозначимая» область на изображении, и вот её-то мы будем наращивать, — а как именно нейросеть «разложит» сюжет по картинке и оставит ли нам что-то такое, предвидеть нельзя. В-третьих, квадратное изображение вам и само по себе может пригодиться, если понадобится внедрить обложку в mp3-файл с озвучкой — там именно квадрат нужен (а надписи ввиду малых размеров можно и не накладывать).

Итак, строим квадратное изображение и описываем, что именно на нём должно быть. Допустим, у нас история по «Звёздным войнам» — это очень широко известная франшиза, и её персонажей знает практически любая нейросеть. Сделаем для примера что-нибудь максимально обобщённое: фильм звёздные войны, люк скайуокер со световым мечом и r2d2 в интерьере звездолета, карикатура. Слово «карикатура» в данном случае отвечает за «отрисованный» стиль изображения, а не «фотореалистичный». Copilot Designer сгенерировал из этого несколько изображений, и вот парочка:

Исходные картинки

Первый (левый) очень легко нарастить по вертикали: хоть вверх, хоть вниз — достаточно просто добавить кусок сплошного чёрного цвета, с этим любой фоторедактор справится моментально. Второй хорошо наращивается вверх — там просто потолок с минимумом деталей, его легко достроить. И вправо-влево тоже, там ничего особенного, стены и пульты, нейросеть их нам дорисует. (Если у вас получаются варианты, не удовлетворяющие этому условию — ну, пробуйте генерировать ещё и уточняйте запросы. В крайнем случае, добавьте к запросу что-то типа «пустой фон», авось получится.)

Допустим, я хочу сделать «книжку» из первого варианта. Тут неплохо было бы сначала убрать несколько лишних объектов (два в воздухе, два на полу), и потом уже наращивать. Тот же Movavi Photo Editor справляется на ура, вот варианты «до» и «после»:

Чистка от лишних элементов

Дальше уже элементарно: расширяем размер холста до пропорций 2:3 и либо при расширении указываем чёрный цвет добавлений, либо потом заливаем добавленное место чёрным. Получается то, что нужно. Остаётся только наложить туда текст — название и автора, подойдёт любой светлый цвет, и обложка готова.

Вариант книжной обложки

Теперь рассмотрим более сложный случай со вторым вариантом. Сначала сделаем книжную обложку, дорисовав его вверх — тут уже не просто расширение холста, тут опять понадобится нейросеть, причём не какая-нибудь, а «Кандинский» с его умением модифицировать изображения.

Загрузим в него наш заготовочный квадрат, выберем инструмент генерации с пропорциями 1:1 и наложим поле инструмента так, чтобы оно своим низом занимало верхнюю часть заготовки, а верх его приходился на пустоту. По клеточкам можно сразу прикинуть, чтобы результат имел соотношение сторон, близкое к 2:3.

Отработаем простенький запрос типа дорисуй фон потолок… и вуаля, здесь мне повезло с первого же раза. Дорисовка потолка не так чтобы прямо идеальна, но там всё равно светлые надписи её частично прикроют, никто особо рассматривать не будет. Осталось только скачать результат, обрезать его в фоторедакторе именно под 2:3 и эти самые надписи наложить:

Второй вариант книжной обложки

Теперь более сложный случай со вторым вариантом, из которого нужно сделать горизонтальную обложку для видео. Начало точно такое же: накладываем слева поле генерации, чтобы оно прихватывало пустоту до приблизительно нужных пропорций. Хотя можно сразу с уверенностью сказать, что с первого раза получится вряд ли.

Отрабатываем запрос типа дорисуй фон интерьер звездолёта. И действительно:

Первый шаг доработки для видеообложки

Достаточно неплохо, но вот эти красно-оранжевые полосы слева от шпангоута явно лишние. Выбираем инструмент «ластик», стираем их и опять отрабатываем тот же запрос, на этот раз не сдвигая поле генерации.

Второй шаг доработки для видеообложки

Значительно лучше, уже почти нормально. Разве что блик на шпангоуте слишком яркий, да ещё пульт в своей середине выглядит как-то не очень правдоподобно. Опять берём ластик и стираем эти места, опять отрабатываем запрос.

Третий шаг доработки для видеообложки

Уже совсем нормально. Пульт выглядит гораздо лучше… блик, правда, убрался не полностью, но нам и так пойдёт, всё равно сейчас надписи сверху лягут. Собственно, только надписи наложить и осталось:

Видеообложка, результат

Всё, обложка готова. Этот последний вариант по времени занял что-то между двадцатью пятью и тридцатью минутами, первые два — минут по пять-шесть каждый. Ну и время на генерацию исходных квадратных изображений — тут я уже не упомню, но не больше трёх или четырёх запросов пришлось перепробовать, это минут десять-двенадцать.

Возможны и более сложные сценарии. Например, нам нужно, чтобы герои смотрели на экран и видели на нём какой-то конкретный объект. Тут нужно будет подготовить два отдельных изображения: основу с героями и экраном (на котором пока может быть что угодно) и собственно содержимое экрана. Затем в фоторедакторе вырезается область экрана и ниже подкладывается слой со вторым изображением, масштаб-расположение которого подбираются так, чтобы всё вместе выглядело естественно.

Вот примерно так. Особых трудов тут не требуется, а с обложкой ваша работа будет гораздо лучше, чем без неё. А ещё технологии постоянно совершенствуются, так что в ближайшем будущем всё может стать даже проще.

Поживём — увидим. Главное, чтобы было к чему эти обложки делать… в чём и желаю творческих успехов.