Муза и алгоритм. Создают ли нейросети настоящее искусство? (страница 4)
Когда мы сталкиваемся со сложным вопросом, требующим долгих раздумий, одни и те же данные приходится гонять от входа к выходу многократно, корректируя после каждой итерации. Иногда лучше даже отложить решение, поскольку постоянный рост синапсов[10] и непрекращающееся обучение могут со временем привести к качественно новому результату. Именно потому, когда вы оказываетесь в затруднительном положении, имеет смысл пойти погулять: свежий воздух и умеренная физическая активность способствуют росту новых связей между нейронами.
Стоит отметить, что одним из самых ресурсозатратных мыслительных процессов является… порождение лжи[11]. Заметим, что здесь и далее речь идёт о серьёзном обмане вроде выдумывания более или менее развитых и правдоподобных альтернативных историй, а не о милом утвердительном ответе на вопрос “Было ли тебе вкусно?” вне зависимости от навыков хозяйки. Этику соотнесения вежливости и вранья мы в данном случае не обсуждаем. Однако факт остаётся фактом: когда человек говорит чистую правду, мозг тратит значительно меньше энергии, чем когда он лжёт. Здесь сразу следует поставить вопрос о том, существует ли принципиальная – не этическая, а физиологическая – разница между обманом и творческим вымыслом? По всей видимости, её почти нет. Действительно, когда мы врём, заметная активность возникает в префронтальной коре (поясной коре, лобных долях), связанной, помимо прочего, с непосредственным поведением. Творчество же, в зависимости от модуса, может активизировать самые разные участки мозга, безусловно, включая и префронтальные.
Какие выводы напрашиваются? Во-первых, Маяковский ничуть не преувеличивал, говоря, что “поэзия – та же добыча радия”. Сочинять стихи тяжело, это требует энергозатрат, превосходящих среднестатистические. Во-вторых, бытует мнение, будто всякий автор пишет (тексты, картины, музыку) о себе. Судя по всему, в этом есть “экономический” резон – так существенно “выгоднее”, поскольку можно меньше выдумывать. Тем не менее подобным образом поступают не все. И тут мы подходим к третьему пункту: ложь – настолько ресурсоёмкий процесс, что если она практикуется достаточно часто, то организм предпочитает к этому адаптироваться[12], чтобы снизить свои затраты. Используя уже привычную нам терминологию: нейронная сеть подстраивает приоритеты синапсов под враньё… и творчество. Они могут стать более естественными, а то и неизбежными модусами. Так возникают патологические лгуны и прирождённые художники. Однако… если создавать произведения так “накладно”, не будет ли разумным использовать технические средства, чтобы сэкономить ресурсы?
Пришло время сделать некоторое отступление. Автору этих строк доводилось нередко писать и рассуждать о самых разных вопросах искусствознания и видах искусства. Преимущественно – о литературе и кино. Существенно меньше – о музыке. И уж совсем мало – о живописи. Нейросети тоже в разной степени освоили создание произведений в каждом из этих видов, но тем не менее далее на страницах настоящей книги мы будем говорить главным образом об изобразительном искусстве и рисующих моделях. Тому есть несколько причин, обосновывающих наше решение с разных сторон. Во-первых, произведение живописи – запечатлённый момент. Готхольд Лессинг, Дени Дидро и другие мыслители высказывали одну и ту же мысль: картина ограничена единственным мгновением, она постоянна во времени и требует активного восприятия. Она говорит с нами на своём языке образов, а не на нашем языке слов, потому мы перед ней лишены форы и в каком-то смысле равны.
То, что могут современные системы искусственного интеллекта в сфере литературы, заслуживает отдельного обсуждения. Профессионалы западного книжного рынка неоднократно подтверждали, что при создании заметной части новых книг (кто-то говорит о двадцатой доле, кто-то – о четверти) уже давно используются нейронные сети не только их авторов. Так как речь об этом идёт уже лет десять, в виду имеется не столько ChatGPT (де-факто лучший инструмент в наше время), сколько его предшественники и альтернативы, о которых мало кто знал вне индустрии. Подчеркнём: суть не в том, что машины целиком пишут книги “вместо” человека от начала до конца, однако порой на звание соавтора претендовать могут вполне (выше мы обсуждали вклад чата в первый абзац). Сразу оговорим: это не хорошо и не плохо – таково естественное развитие книжного дела и в конечном итоге ремесла писателя, нравится это кому-то или нет.
Сам факт существования инструментов искусственного интеллекта, применяемых в литературе, мог бы и дальше никого особенно не волновать, оставаясь обсуждаемым лишь в среде профессионалов, если бы компания OpenAI не сделала ChatGPT достоянием широкой общественности. Ключевую роль в этом сыграл пользовательский интерфейс чата, понятный каждому человеку, умеющему обращаться с компьютером или смартфоном. Примерно в то же время на авансцену вышли и рисующие нейронные сети, которые по текстовым запросам (промптам, как их принято называть) стали создавать изображения. Тогда искусственный интеллект заговорил с людьми на таинственном, а значит, немного пугающем или хотя бы настораживающем языке визуальных образов.
Если читатель этих строк до сих пор не пробовал нарисовать что-либо в одной из нейросетей… Да, сам глагол “рисовать” может показаться спорным, но, чтобы не утонуть в кавычках и экивоках, давайте придерживаться именно такого вокабуляра. Итак, если читатель никогда не пробовал, автор настоятельно рекомендует сделать это прямо сейчас. Поскольку вашему покорному слуге неизвестно, какой на дворе год и какие средства доступны вам в данный момент, приводить ссылки вряд ли имеет смысл. Заметим лишь, что подавляющее большинство иллюстраций в настоящей книге было сгенерировано с помощью нейросети Midjourney. В отдельных случаях использовались Leonardo, Stable Diffusion разных версий, Blue Willow, Dall-E, Playground AI, Invoke AI и другие.
Более того, даже тексты запросов, породивших иллюстрации, приводить почти нет смысла – мы будем делать это лишь в тех случаях, когда важно пояснить принципы общения с моделью или особенности синтаксиса промптов. Кстати, общаться будем на английском языке. Причина тому банальна: лучшие сети тренировались именно на нём, а значит, результаты окажутся качественнее и точнее. Однако никакой проблемы для тех, кто не владеет языком, здесь нет: запросы можно переводить с помощью онлайн-переводчиков, в том числе и тех, которые тоже используют нейросети, вроде DeepL Translator[13].
Сопровождать иллюстрации промптами имело бы смысл, если бы они позволяли воспроизводить результаты, но это не так. Во-первых, большинство моделей на каждый запрос генерирует несколько вариантов произведений на выбор. Как правило, “выдача” состоит из четырёх изображений, и далеко не всегда мы будем приводить их все. А во-вторых, ни одна нейросеть никогда не повторяется. В случае очень чёткого и детерминированного задания можно представить себе ситуацию, в которой рисунки окажутся однотипными, а их сходства – очевидными, но всё же каждый останется уникальным. Вот пример (см. илл. 2) множества картинок, полученных по почти идентичным запросам. Первые четыре – это цельная выдача нейросети Midjourney на промпт “14th century villain who won the game”, то есть “злодей XIV века, который выиграл”. Для запуска генерации приведённые слова должны предваряться командой “/imagine”. Вторые четыре изображения получены по запросу “15th century villain who won the game”, потом – “16th century villain who won the game” и так далее до XXV столетия.
Заметим, что получить все эти картинки разом можно было по мультизапросу “{14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25}th century villain who won the game”, но это – для понимания синтаксиса промптов, не более. Ещё несколько практических замечаний: век лучше указывать арабскими цифрами, не римскими. Также рекомендуется избегать излишних артиклей, особенно “a”, поскольку мера неопределённости для нейросети значения не имеет.
Вглядимся в лица злодеев. Безусловно, все они разные – нет двух одинаковых как внутри отдельной выдачи, так и в целом, если рассмотреть каждое из сорока восьми изображений. В то же время очевидны некие общие качества: шрамы, возраст (мы вовсе не просили пожилого человека, но юного нам модель не предложила), спокойное или ироничное выражение лица (вплоть до клоуна или безумца), признаки власти или игры… Более того, наш незатейливый запрос позволил выявить стереотипные представления нейросети о некоем “литературном зле” в разные исторические периоды. Достаточно проследить хотя бы за одной деталью – головными уборами: монаршая корона XIV века обретает черты шутовского колпака в XV. Далее – шляпа вельможи, которая в XVII столетии уже невообразима без полей. Тогда же появляются и парики, без которых в XVIII веке злодей непредставим. XIX – время цилиндров, которые в XX постепенно уходят, хотя один вариант и дотягивает до XXI. “Современные” мерзавцы имеют признаки технократии, граничащей со стимпанком. Головные уборы – будь то цилиндр или корона – явно футуристические. Начиная с XXII века нейросети трактуют эпоху как условное “будущее” и злодеи утрачивают определённые человеческие черты (за исключением одного в XXIV столетии), походя больше на героев фантастических фильмов и компьютерных игр, что, в свою очередь, ничуть не удивительно, поскольку в ходе образования сеть наверняка получала и их портреты. Недаром великий Марк Ротко говорил: “Картина не изображает некий опыт, но является опытом”. Теми же причинами объясняются и рекуррентные черты вампира (главным образом уши), Джокера и кого-то вроде Шиннока из саги “Mortal Kombat”.
Абстрагируясь от черт, сфокусируем внимание на том, сколь полученные результаты, в сущности, разнообразны. Как же так выходит, что нейросети не повторяются? Это связано с самим принципом генерации картин с помощью так называемых диффузионных моделей. Изображения возникают из начальных условий, представляющих собой “белый шум”. Грубо говоря, на первом шаге каждая точка имеет случайный цвет. Функционирование нейросети заключается в том, что она последовательно реализует “цветовую диффузию” или удаление шума для того, чтобы “восстановить” из данного изображения ту картину, которая соответствовала бы текстовому запросу. Некоторые модели даже показывают ход этого процесса – результат последовательно проступает из мутного небытия. В каком-то смысле происходит фантастическая реставрация – восстановление того, чего не было. Однако именно здесь и кроется ответ: все итоговые изображения разные, потому что они получены из разных начальных условий. А вероятность того, что генерируемое случайным образом начальное состояние картины повторится, несколько меньше количества частиц во Вселенной[14].
Наконец, третья причина того, почему приводить запросы бессмысленно, состоит в следующем: используемые модели находятся в непрерывном развитии. Они постоянно обучаются, корректируются, оптимизируются. В ходе работы над настоящей книгой у автора этих строк случилась длительная поездка, и он не пользовался Midjourney на протяжении трёх недель. При этом уже было заготовлено некоторое количество промптов, ждавших своего часа. По возвращении выяснилось, что модель изменилась невероятно, она начала реагировать совершенно иначе, а потому продолжать развитие старых идей едва ли было возможно. Но это, в свою очередь, стало лишь поводом придумать новые.
