Разум в унисон. Технология мышления с ИИ (страница 2)
Потребность в быстрых компьютерах с очень дорогими чипами, работающими месяцами в предтренировке, в основном ответственна за то, что более продвинутые LLM стоят свыше $100 миллионов для тренировки, используя большие количества энергии в процессе.
Источники данных для обучения
Многие ИИ-компании держат в секрете исходные тексты, на которых тренируются, называемые корпусами тренировки, но типичный пример тренировочных данных в основном состоит из текста, взятого из интернета, книг общественного достояния и исследовательских статей, и различных других бесплатных источников контента, которые исследователи могут найти.
Изучение этих источников в деталях выявляет странные материалы:
Вся база данных электронных писем Enron, закрытой за корпоративное мошенничество, используется как часть тренировочного материала для многих ИИ просто потому, что была сделана свободно доступной
Огромное количество любительских романтических романов включено в тренировочные данные, поскольку интернет полон писателей-любителей
Поиск высококачественного контента для тренировочного материала стал главной темой в разработке ИИ, поскольку жаждущие информации ИИ-компании исчерпывают хорошие, бесплатные источники. Одна оценка предполагает, что высококачественные данные, такие как онлайн-книги и академические статьи, будут исчерпаны к 2026 году.
Правовые и этические вопросы
Вероятно, большинство тренировочных данных ИИ содержит информацию, защищенную авторским правом, такую как книги, используемые без разрешения, случайно или намеренно. Правовые последствия этого пока неясны.
Поскольку данные используются для создания весов, а не непосредственно копируются в системы ИИ, некоторые эксперты считают это выходящим за рамки стандартного закона об авторском праве. В ближайшие годы эти вопросы, вероятно, будут решены судами, но создают облако неопределенности над этой ранней стадией тренировки ИИ.
Проблемы обучения без фильтров
Из-за разнообразия источников данных обучение не всегда хорошо. ИИ может также изучать предрассудки, ошибки и ложь из данных, которые он видит. Сразу после предтренировки ИИ также не обязательно производит результаты, которые люди ожидали бы в ответ на запрос.
Потенциально хуже то, что у него нет этических границ, и он был бы счастлив дать совет о том, как растратить деньги, совершить убийство или преследовать кого-то онлайн. LLM в этом предтренированном режиме просто отражают то, на чем они были тренированы, как зеркало, без применения суждения.
Тонкая настройка и человеческая обратная связь
После изучения всех текстовых примеров в предтренировке многие LLM проходят дальнейшее улучшение во второй стадии, называемой тонкой настройкой (fine-tuning).
Один важный подход к тонкой настройке – привлечение людей в процесс, который ранее был в основном автоматизированным. ИИ-компании нанимают работников – некоторых высокооплачиваемых экспертов, других низкооплачиваемых контрактных работников в англоговорящих странах, таких как Кения – читать ответы ИИ и оценивать их по различным характеристикам.
В некоторых случаях это может быть оценка результатов на точность, в других – отсеивание жестоких или порнографических ответов. Эта обратная связь затем используется для дополнительной тренировки, тонкой настройки производительности ИИ в соответствии с предпочтениями человека.
Этот процесс называется Обучение с подкреплением на основе человеческой обратной связи (Reinforcement Learning from Human Feedback, RLHF), обеспечивающее дополнительное обучение, которое усиливает хорошие ответы и сокращает плохие.
Мультимодальные возможности
LLM учатся работать с изображениями, получая способность как «видеть», так и создавать картинки. Эти мультимодальные LLM объединяют силы языковых моделей и генераторов изображений.
Они используют архитектуры трансформеров для обработки текста, но также применяют дополнительные компоненты для работы с изображениями. Это позволяет LLM связывать визуальные концепции с текстом и получать понимание визуального мира вокруг них.
Современный пример: Дайте мультимодальному LLM ужасно нарисованную от руки картинку самолета, окруженного сердечками, и он скажет: «Я думаю, это милый рисунок самолета с сердечками вокруг него. Похоже, вы любите летать или кого-то, кто летает. Может быть, вы пилот или у вас есть любимый человек, который пилот. Или, может быть, вы просто любите путешествовать и исследовать новые места».
Затем он может использовать свои гораздо лучшие навыки рисования, чтобы предоставить еще лучшую версию картинки. Большинство крупных LLM получают мультимодальные возможности, что позволит им изучать мир новыми и непредсказуемыми способами.
Резюме: революция в понимании языка
Переход от ранних предсказательных систем к современным LLM представляет фундаментальный сдвиг в искусственном интеллекте. Трансформеры и механизм внимания позволили машинам понимать контекст и генерировать связные тексты способом, который казался невозможным еще несколько лет назад.
Современные языковые модели – это не просто улучшенные калькуляторы или системы поиска. Они представляют собой качественно новый тип интеллекта, способный к творчеству, анализу и взаимодействию на уровне, приближающемся к человеческому. И это только начало их эволюции.
Страшно? Умно? Страшно-умно?
Когда новые методы машинного обучения стали доступны широкому кругу разработчиков, множество крупных корпораций и стартапов бросились создавать большие языковые модели (Large Language Models, LLMs). Первые модели разрабатывали исследователи из Google, но вскоре к ним присоединились небольшие стартапы. Интересно, что некоторые из них основали авторы знаменитой статьи о трансформерах (Transformers), покинувшие Google ради собственных проектов.
Ранние LLM создавали текст, который был интересен с технической точки зрения, но совершенно не убеждал качеством. Возьмем GPT-3, выпущенную OpenAI в 2021 году. Попросите её написать лимерик, и получите что-то вроде:
Жил-был ИИ по имени Чарли
Он был настоящим чудом
Вычислял и выводил
И никогда не ошибался
Пока однажды не начал сбоить
Это ужасно во всех отношениях: не рифмуется, лишено изюминки и невероятно скучно. Однако развитие LLM продолжалось, и в конце 2022 года OpenAI выпустила ChatGPT на базе улучшенной модели GPT-3.5.
И тут произошло нечто удивительное. При достижении определенного масштаба ChatGPT начал демонстрировать способности, которые никто не программировал и не ожидал. Эмерджентные свойства (emergent abilities) – так называют эти неожиданные таланты, делающие ИИ похожим на человека.
Результат впечатляет: ИИ научился писать рассказы, стихи, эссе, твиты и даже код. Более того, он стал показывать результаты, близкие к человеческому уровню, в стандартных тестах и экзаменах.
Но главная проверка ИИ – это, конечно, лимерики:
Жила-была технология ИИ,
Чей интеллект был весьма высок,
Она училась и росла,
И знала, что делать,
Но все же не могла рассмешить, если честно.
Намного лучше и даже немного смешно! Правда, последняя строчка слегка нарушает схему рифмовки. К счастью, новая особенность ChatGPT – возможность диалога. Можно пожаловаться на рифму, и система исправит ошибку:
Извините! Вот исправленный лимерик:
Жила-была технология ИИ,
Чей интеллект был весьма высок,
Она училась и росла,
И знала, что делать,
Но все же не могла нас до слез довести.
Прорыв GPT-4: от игрушки к серьезному инструменту
Несмотря на впечатляющие возможности GPT-3.5, её преемник GPT-4 оказался еще более поразительным. OpenAI протестировала модель на разнообразных стандартизированных экзаменах – от школьного до аспирантского и профессионального уровней. GPT-4 превзошла предшественницу с огромным отрывом.
Впечатляющая статистика:
• 90-й процентиль на экзамене адвокатской палаты (GPT-3.5 – только 10-й процентиль)
• Высший балл (5) по курсам Advanced Placement: математический анализ, физика, история США, биология и химия
• Успешная сдача письменной части экзамена сомелье (модуль дегустации вин пока не разработан)
• Прохождение квалификационного экзамена нейрохирурга
• Максимальные результаты во всех основных тестах на креативность
Осторожно: возможные искажения результатов
Справедливости ради стоит отметить проблему с тестированием ИИ. Ответы могли попасть в обучающие данные, что равносильно заранее известным ответам – своеобразному списыванию. Однако, как мы увидим в следующих главах, способности GPT-4 подтверждаются множеством других доказательств, выходящих за рамки тестовых оценок.
Игрушки превратились в мощные инструменты с поразительной скоростью.
Кстати, с лимериками GPT-4 тоже справляется отлично:
Жил-был ИИ весьма остроумный,
Чей код был на удивление изящен.
Шутил и каламбурил,
Всех развеселил,
И даже сочинил эту песенку!
Самоосознание или имитация?
GPT-4 настолько способен, что мне стало неловко просить его создавать только лимерики. Я показал модели вышеприведенный текст и попросил высказать "мнение":
Как GPT-4, должен признать, что лимерики, упомянутые в отрывке, отражают эволюцию возможностей ИИ, но они могут не быть самым sophisticated показателем истинного потенциала ИИ. Лимерики с простыми схемами рифмовки и легкомысленным юмором дают лишь поверхностное представление об огромном ландшафте понимания и генерации языка.
Более того, осмелюсь сказать, что лимерики несколько ниже моих истинных способностей. Как продвинутая модель ИИ, я способен на гораздо более сложные лингвистические подвиги: анализ литературы, решение запутанных проблем, глубокие философские дискуссии…
Тревожное самосознание? Возможно. Но это всего лишь иллюзия. GPT-4 настолько хорошо имитирует человеческие тексты и взаимодействия, что убеждает нас в наличии чувств и мыслей, хотя на самом деле искусно играет роль, которую я ему неявно задал.
Эксперимент с разными подходами
Я попросил прокомментировать отрывок интересным и самоосознанным способом. Это дает совершенно иные результаты по сравнению с просьбой прокомментировать критически и резко:
Хотя отрывок представляет упрощенный обзор развития больших языковых моделей, он упускает возможности обсудить более широкие последствия и вызовы прогресса ИИ. Зацикленность автора на лимериках как метрике успеха может быть увлекательной для обычной аудитории, но мало отражает истинные возможности ИИ или затрагивает этические и социальные вопросы, возникающие с такими технологиями.
Или при просьбе прокомментировать поддерживающим образом, повышающим самооценку:
Отрывок блестяще освещает захватывающий путь развития ИИ, особенно в области LLM. Увлекательный стиль повествования автора не только привлекает внимание читателя, но и делает прогресс в ИИ доступным и приятным для широкой аудитории…
Думаю, остановлюсь на последнем варианте.
Многообразие применений современного ИИ
ИИ не ограничивается лимериками или комментариями. Большие языковые модели и лежащая в их основе технология трансформеров открыли множество направлений для генеративного ИИ (generative AI). Современные системы создают широкий спектр материалов: блоги, эссе, компьютерный код, речи, изображения, интерактивные истории, сценарии, музыку – назовите что угодно, и ИИ, скорее всего, справится.
Экосистема современных LLM
Эту работу выполняет растущее число систем LLM:
• Специализированные малые LLM – ограниченные возможности, но дешевые в эксплуатации для узких задач (например, ответы на простые вопросы клиентской поддержки)