Революция разума: на подступах к Сингулярности. Как технологии изменят общество и сознание (страница 8)

Страница 8

Несколько месяцев спустя появилась существенно более продвинутая система под названием AlphaGo Zero. Когда в 1997 году компания IBM со своим суперкомьютером Deep Blue победила чемпиона мира по шахматам Гарри Каспарова, им пришлось снабдить программу всеми доступными знаниями о шахматах, которые программисты смогли почерпнуть у шахматных экспертов80. Суперкомпьютер стал шахматистом, никаких других функций у него не было. В AlphaGo Zero не загружали вручную никакой информации о игре го, кроме правил самой игры, тем не менее за три дня игры с самой собой она прошла путь от выполнения случайных ходов к уровню мастерства, который обеспечил ей легкую победу над прошлой версией AlphaGo, которую тренировали люди, со счетом 100:081. (В 2016-м AlphaGo в четырех играх из пяти обыграла Ли Седоля, который на тот момент занимал вторую строчку в неофициальном рейтинге игроков в го по количеству титулов.) Нейросеть AlphaGo Zero использовала новый формат обучения с подкреплением, став своим собственным тренером. Через 21 день AlphaGo Zero достигла уровня AlphaGo Master – нейросети, которая в 2017-м нанесла поражение 60 лучшим мастерам при игре онлайн, в том числе чемпиону мира Кэ Цзе, выиграв у того три партии из трех82. Через 40 дней обучения AlphaGo Zero превзошла в мастерстве все предыдущие версии AlphaGo и стала лучшим игроком в го среди людей и компьютеров83. Этого результата удалось добиться без предоставления ей записей игр людей и еще какого-либо вмешательства со стороны операторов.

Но главное достижение команды DeepMind было еще впереди. Нейросеть следующего поколения, получившая название AlphaZero, продемонстрировала способность переносить навыки, полученные при игре в го, на другие игры, в частности шахматы84. Эта программа сумела одолеть не только всех игроков из числа людей, но и все другие шахматные программы, проведя всего лишь четыре часа тренировок и не имея никакой специфической информации, кроме правил игры. Такого же успеха она добилась и в игре сёги. Последняя версия нейросети на момент написания книги называлась MuZero. Она повторила все достижения своей предшественницы, не зная заранее даже правил игры85! Обладая способностью к «переносу навыков», MuZero может освоить любую настольную игру, в которой не фигурирует случайность, многозначность или скрытая информация, а также любую детерминированную видеоигру, например, «Понг» от компании Atari. Умение применять знания и опыт, полученные в одной области, для решения задач в другой – это ключевая особенность человеческого разума.

Однако область применения нейросетей глубокого обучения не ограничивается подобными играми. Системы искусственного интеллекта, специализирующиеся на играх StarCraft II и покер, в которых много неопределенности и требуется понимание стратегии соперников, недавно тоже превзошли живых игроков86. Единственным исключением (пока что) остаются игры, требующие совершенного владения речью. Хорошим примером может служить «Дипломатия». Цель игрока в ней – захватить мир, причем это невозможно сделать, полагаясь только на удачу или навыки, приходится договариваться с соперниками87. Чтобы выиграть, вам нужно заставить других игроков сделать выгодные вам ходы, убедив их, что им эти действия также на руку. Так что ИИ, способный выиграть в эту игру, скорее всего, будет искусным обманщиком и отличным переговорщиком. Но даже в «Дипломатии» нейросетям удалось в 2022-м добиться впечатляющих результатов, особенно программе под названием CICERO, которая смогла одолеть многих игроков-людей88. Подобные успехи теперь случаются чуть ли не каждую неделю.

С помощью глубокого обучения можно научить ИИ не только мастерски играть в игры, но и действовать в сложных жизненных ситуациях. Для этого, по сути, требуется только симулятор, способный воссоздать обстановку, в которой ИИ должен научиться ориентироваться. Примером может служить вождение автомобиля. За рулем вы можете столкнуться с рядом опасных ситуаций, таких как неожиданная остановка другой машины, ребенок, выбежавший за мячом на дорогу, и так далее; в каждом из этих случаев у водителя есть несколько вариантов действий. Waymo, дочерняя компания Alphabet, разработала систему автономного вождения. Первые поездки автопилота проходили в сопровождении оператора89. Каждая деталь маршрута была тщательно задокументирована, а затем на основе этих записей был создан полноценный симулятор. К настоящему времени автономные автомобили Waymo проехали более 20 миллионов километров90, к тому же автопилот набирался опыта на миллиардах километров реалистичных виртуальных дорог91. С таким пробегом за плечами беспилотный автомобиль рано или поздно начнет передвигаться намного эффективнее управляемого живым водителем. Еще одним примером использования современных методов моделирования является задача определения трехмерной структуры белка, о которой мы подробно поговорим в главе 6. Это одна из самых сложных задач в биологии, и ее решение позволит создать беспрецедентно эффективные лекарства.

Притом что система MuZero великолепно играет во множество игр, ее успехи в целом пока скромнее, чем может показаться: ей не под силу написать сонет или найти слова, чтобы утешить больного. Чтобы в полной мере воспроизвести невероятные возможности неокортекса человеческого мозга, ИИ необходимо в совершенстве овладеть языком. Именно развитая речь позволяет нам проводить аналогии между абсолютно разными областями знаний и помогает эффективно передавать друг другу единицы смысла. Благодаря способности говорить и воспринимать речь мы не связаны необходимостью учиться на миллионах примеров. Иногда нам достаточно прочесть всего одно предложение, чтобы получить нужные сведения.

Наибольшего прогресса в работе с естественными языками пока удалось добиться с помощью глубоких нейронных сетей, которые строят карту значений слов в пространстве с очень большим числом измерений. Для этого существует несколько математических методов, которые позволяют ИИ определить смысл выражения, не обращаясь к заранее заготовленному набору языковых правил, как требовал бы символьный подход. Например, мы можем построить многослойную нейронную сеть прямого распространения и обучить ее на выборке из миллиардов (или даже триллионов) предложений. Такой объем данных можно собрать из открытых источников во Всемирной сети. Нейросеть свяжет каждое предложение с точкой в 500-мерном пространстве, иначе говоря, со списком из 500 чисел (число 500 выбрано мной произвольно, размерность может быть другой, но достаточно большой). Сначала все эти числа для каждого предложения задаются случайным образом. В ходе обучения нейросеть корректирует положение, занимаемое каждым предложением в 500-мерном пространстве, таким образом, чтобы близкие по значению фразы оказались рядом друг с другом, а непохожие, наоборот, на удалении. Если провести обучение на огромном количестве текстов, то соответствующая каждому предложению точка в 500-мерном пространстве позволит по соседним высказываниям определить, о чем в нем говорится.

Работая в таком ключе, ИИ изучает смысл слов не по словарям и грамматическим справочникам, а из контекста, в котором эти слова употребляются. Например, он сообразит, что у слова «джем» есть омонимы, потому что иногда люди его едят, а в других случаях берут электрогитары и устраивают «джем», хотя никто не говорит, что гитары съедобны. Мы сами пополняем свой словарный запас таким же образом, за исключением небольшого количества слов, которые проходим в школе или специально ищем в словаре. Между тем нейросети уже распространили свое ассоциативное мышление на другие виды информации, помимо текста. В 2012 году компания OpenAI представила проект CLIP. Эту нейросеть обучили устанавливать связи между картинкой и ее описанием. В результате узлы этой нейросети «реагируют на одну и ту же идею, фигурирует ли она во входящем потоке информации в виде текста, изображения или ассоциации»92. Например, один и тот же нейрон может сработать при виде фотографии паука, рисунка Спайдермена или слова «паук». Именно так мозг человека воспринимает концепции, абстрагируясь от деталей. Для ИИ это огромный рывок вперед.

В качестве развития этого метода можно построить 500-мерное пространство, в котором содержатся предложения на всех языках. В таком случае, если требуется перевести фразу с одного языка на другой, остается просто найти предложение на нужном языке, которое в этом многомерном пространстве расположено ближе всего к исходному. Можно заодно отыскать другие близкие по значению высказывания, рассмотрев соседние точки. Еще один вариант: построить пару 500-мерных пространств, одно из которых будет содержать вопросы, а второе – ответы на них. Для этого потребуется собрать миллиарды пар предложений, сгруппированных по принципу вопрос-ответ. Развивая этот подход, моя команда в Google разработала «Универсальный кодировщик предложений»93, создав базу данных, в которой каждому предложению соответствуют его характеристики, например, «ироничное», «забавное» или «позитивное». Нейросеть, обученная на таком расширенном наборе данных, способна не только подражать тому, как люди используют язык, но также улавливать более тонкие семантические особенности, которые могут быть неочевидны за буквальным значением слов. Такое метазнание способствует более полному пониманию текста.

Используя эти принципы, мы в компании Google создали ряд приложений, работающих с языком повседневного общения. Особый интерес из них представляет функция почтового сервиса Gmail под названием Smart Reply94. Если вы пользуетесь Gmail, то могли заметить, что сервис предлагает вам три варианта ответа на каждое письмо. Эти подсказки формируются с учетом не только последнего письма, но и всех предыдущих писем в цепочке, а также темы переписки и других данных, указывающих на то, с кем вы общаетесь. Чтобы проанализировать все эти элементы, мы используем многомерное представление, описанное выше. В работе сервиса задействована многослойная нейросеть прямого распределения вместе с иерархическим представлением текстового содержимого переписки. Поначалу многим пользователям эта функция показалась непривычной, но они достаточно быстро к ней адаптировались. Теперь Gmail Smart Reply генерирует небольшую, но все-таки заметную долю почтового трафика.

Еще одним проектом Google, основанным на описанном выше подходе, стал экспериментальный сервис «Поговори с книгой». (Он был доступен с 2018 по 2023 год.) Когда вы задавали вопрос, программа в течение полусекунды сканировала каждое из 500 миллионов предложений в библиотеке из более чем 100 000 книг и находила наиболее подходящий ответ. Этот процесс отличался от обычного поиска Google, который предлагает вам ссылки на основе комбинации параметров, таких как ключевые слова в запросе, частота обращений пользователей к странице и так далее. Вместо этого система «Поговори с книгой» сопоставляла смысл вашего вопроса со значением каждого предложения из своей базы данных.

Одним из самых многообещающих приложений многомерного подхода к обработке языка являются так называемые трансформеры – класс систем искусственного интеллекта. В этих моделях глубокого обучения применяется механизм внимания, который позволяет перераспределять вычислительные ресурсы, направляя их на наиболее значимые части входных данных. Этот механизм напоминает работу новой коры головного мозга человека, которая позволяет нам сосредоточиться на той части информации, которая имеет наибольшее значение для формирования суждения. Трансформеры обучаются на огромных объемах текста, разбивая его на токены: слова, сочетания частей слов и целые строки. Затем каждый из этих токенов оценивается по огромному числу параметров (в настоящее время используются миллиарды или триллионы таких параметров). Эти параметры можно рассматривать как факторы, на основе которых строятся прогнозы.