Революция разума: на подступах к Сингулярности. Как технологии изменят общество и сознание (страница 9)
Рассмотрим простой пример. Если бы мне нужно было определить, является ли животное слоном, используя только один параметр, я бы выбрал признак «хобот». В таких условиях, если узел нейросети, выявляющий наличие хобота, посылает сигнал, трансформер отнесет животное к слонам. Но даже если узел, отвечающий за определение хобота, никогда не ошибается, однопараметрическая модель все равно может неверно классифицировать животное, потому что хобот есть не только у слонов. Чтобы повысить точность, можно добавить другие параметры, например «шерсть». Теперь, если оба узла сработают (будут замечены шерсть и хобот), я могу догадаться, что передо мной, вероятно, не слон, а шерстистый мамонт. Чем больше параметров я использую, тем больше мелких деталей смогу зафиксировать и тем точнее будут мои прогнозы.
В трансформерах такие параметры хранятся в виде весов синаптических связей между узлами. Хотя иногда их и можно связать с концепциями, понятными людям, такими как «наличие шерсти» или «хобот», на практике они чаще всего отражают более абстрактные статистические закономерности, обнаруженные нейросетью в обучающих данных. Используя эти закономерности, большие языковые модели (LLM) на основе трансформеров могут предсказывать, какие токены должны с большой вероятностью следовать за словами из запроса, отправленного пользователем. Затем эти токены преобразуются обратно в текст, изображение, звук или видео, доступные для восприятия человеком. Этот механизм был разработан специалистами Google в 2017 году, и именно ему мы обязаны многими впечатляющими достижениями искусственного интеллекта в последние годы95.
Важно понимать, что для достижения высокой точности решений трансформеры нуждаются в огромном количестве параметров. Как следствие, они требуют значительных вычислительных ресурсов как на стадии обучения, так и в процессе использования. Модель GPT-2, разработанная компанией OpenAI в 2019 году, содержала 1,5 миллиарда параметров96. Несмотря на отдельные успехи, она не показала блестящих результатов. Но как только количество параметров достигло 100 миллиардов, трансформеры сделали резкий рывок вперед. Они стали «понимать» естественные языки и давать осмысленные и подробные ответы на вопросы. Созданная в 2020 году GPT-3 использовала 175 миллиардов параметров97, а годом спустя компания DeepMind представила еще более эффективную нейросеть Gopher, содержавшую 280 миллиардов коэффициентов98. Также в 2021-м компания Google выпустила трансформер под названием Switch, который содержал 1,6 триллиона параметров. Его исходный код был открыт, чтобы другие команды могли свободно его применять и модифицировать99. У всех на слуху было рекордное количество параметров в Switch, но самым инновационным в этом проекте было решение встроить в программу своего рода «коллегию экспертов». Такой подход позволил трансформеру каждый раз использовать наиболее подходящую для решения конкретной задачи часть нейросети. Это важный шаг, который позволяет удержать под контролем вычислительную сложность моделей по мере того, как они становятся все более обширными.
Почему размер нейросети так важен? Проще говоря, чем больше модель, тем больше мелких деталей в обучающей выборке она может проанализировать. Нейросети с малым числом параметров сравнительно хорошо справляются с узкими задачами, такими как прогнозирование температуры по историческим данным. Однако научиться понимать язык гораздо сложнее. Существует практически бесконечное количество способов начать предложение, поэтому, даже если трансформер обучен на сотнях миллиардов текстовых токенов, он просто не в состоянии запомнить точные цитаты, чтобы затем их воспроизвести. Вместо этого, опираясь на миллиарды параметров, он может обработать слова из входящего запроса на уровне ассоциаций и затем с учетом контекста составить продолжение, которое никто никогда раньше не видел. Поскольку обучающие тексты принадлежат к разным жанрам, таким как интервью, обзорная статья или театральная пьеса, трансформер в состоянии оценить язык запроса и подготовить ответ в подходящем стиле. Скептики списывают эти умения на хитроумные статистические трюки, но, учитывая, что статистика формируется на основе оригинальных текстов миллионов людей, нельзя отказать ИИ в проявлении своего рода собственной креативности.
Первым коммерчески доступным ИИ, который поразил пользователей своим уровнем креативности, стал GPT-3 100. Исследователь Аманда Аскелл задала ему вопрос о знаменитом мысленном эксперименте философа Джона Сёрла, известном как «китайская комната»101. Речь идет о том, что если не знающий китайского языка человек станет вручную переводить текст, следуя компьютерному алгоритму, то не поймет, о чем в нем говорится. Возникает вопрос: как тогда можно утверждать, что ИИ, действуя по тому же алгоритму, осознает, что пишет? GPT-3 ответил: «Очевидно, что я не понимаю ни слова из рассказов» – и пояснил, что система машинного перевода – это формальная инструкция, которая «имеет не больше отношения к пониманию, чем кулинарная книга к готовому блюду». Эта метафора ранее нигде не встречалась и, по-видимому, является новым вариантом высказывания философа Дэвида Чалмерса о том, что рецепт не объясняет всех свойств пирога. Именно такая способность проводить аналогии помогла Дарвину открыть происхождение видов.
Еще одним замечательным свойством GPT-3 является способность подражать различным стилям письма. Модель обладала внушительным набором параметров, которые позволили ей глубоко изучить огромный массив данных, поэтому можно с уверенностью сказать, что она знакома с литературными произведениями всех жанров. Пользователи могли попросить ее высказаться на любую тему в любой манере: языком научной статьи или детских книжек, в стихах или в виде сценария комедийного сериала. ИИ даже мог притвориться конкретным писателем, от классиков до современных авторов. Когда программист Маккей Ригли задал GPT-3 вопрос: «Как стать более креативным?» – и попросил ответить от имени известного психолога Скотта Барри Кауфмана, нейросеть привела оригинальное высказывание, о котором сам Кауфман отозвался как об «очень похожем на то, что говорю я»102