ИИ: Необъяснимый, непредсказуемый, неконтролируемый (страница 2)

Страница 2

Считается, что отсутствие контроля ИИ приведет к настолько серьезным последствиям, что даже при малейшей вероятности появления враждебного ИИ потенциальный вред приобретет астрономический масштаб – а значит, исследования по безопасности ИИ в любой случае окупятся. Здравый смысл говорит о том, что огромный негативный эффект даже при его малой вероятности означает очень большой вред. И такой вариант развития событий действительно необходимо воспринимать всерьез. К тому же в реальности шансы несогласованности ИИ с целями и нормами его создателей довольно высоки. Это значит, что в отсутствие эффективной программы безопасности ИИ единственно возможный результат – почти гарантированное отрицательное событие с потенциалом экзистенциальной катастрофы. Таким образом, статистика говорит в пользу масштабного исследования безопасности ИИ. Речь о не о сценариях с низкими рисками и высокой отдачей – риски велики, а результатом будет предотвращение худшего. Неудивительно, что многие считают, что это самая серьезная задача, когда-либо стоявшая перед человечеством. Мы выбираем между нашим процветанием и нашим уничтожением. На весах находится судьба мира, поэтому доказательство решаемости или нерешаемости задачи контроля ИИ – действительно важнейшая проблема всех времен.

1.3. Что мешает контролировать ИИ

Для того чтобы контролировать модель сильного ИИ, нам нужны инструменты, которые обеспечат ее объяснимость, предсказуемость и проверяемость [15]. Но возникает вопрос доступности этих инструментов для нас.

• Концепция необъяснимости ИИ предполагает, что невозможно дать на 100 % точное и понятное объяснение конкретных решений интеллектуальной системы. Ее дополняет концепция непостижимости ИИ, которая означает, что человек не сможет до конца понять любое совершенно точное объяснение решений интеллектуальных систем [16].

• Непредсказуемость ИИ, которая также мешает достижению безопасности ИИ, – это неспособность человека точно и закономерно предсказывать действия интеллектуальной системы, которые она предпримет для достижения своих целей, даже если известны ее конечные цели [17]. Непредсказуемость связана с необъяснимостью и непостижимостью ИИ, но не совпадает с ними полностью. Она не означает, что невозможен статистический анализ с точностью выше случайной, но указывает на общее ограничение эффективности анализа, особенно ярко выраженное у передовых систем сильного ИИ в новых областях.

• Непроверяемость – фундаментальное ограничение проверки математических доказательств, ПО, поведения интеллектуальных агентов и любых формальных систем [18]. Все более очевидно, что у нас есть лишь вероятная уверенность в правильности математических доказательств и программных решений – и весьма ограниченная возможность проверки интеллектуальных агентов.

Многие исследователи предполагают, что задачу контроля ИИ можно решить, но никаких доказательств или подтверждений тому нет. Поэтому прежде чем приступать к созданию контролируемого ИИ, важно показать, что задача в принципе имеет решение, чтобы не тратить ценные ресурсы понапрасну. Бремя доказательств лежит на тех, кто утверждает, что эта задача вполне решаемая, а отсутствие таких доказательств в настоящее время свидетельствует о том, насколько рискованно разрабатывать сильный ИИ. С большой вероятностью ИИ не поддается контролю – это можно доказать приведением данной проблемы к задаче контроля со стороны человека.

Есть множество открытых вопросов о контролируемости ИИ: можно ли решить задачу контроля? Возможно ли это в принципе? Возможно ли это на практике? Можно ли при этом добиться достаточного уровня точности? Сколько времени это займет? Успеем ли мы это сделать? Каковы затраты энергии и вычислительных мощностей для данной задачи? На что будет похоже решение? Каким будет минимально осуществимое решение? Как мы поймем, что задача решена? Поддается ли решение масштабированию при дальнейшем развитии системы? Мы считаем, что интеллект без ограничений нельзя контролировать, а интеллект с ограничениями не сможет создавать что-либо новое. Если не контролировать сильный ИИ, то, кто бы ни программировал его, последствия будут катастрофическими для всех и в первую очередь – для его создателей. Неконтролируемый сильный ИИ никому не принесет пользы.

Отсутствуют публикации, подтверждающие, что менее интеллектуальный агент может бесконечно сохранять контроль над более интеллектуальным. Разрабатывая системы, уступающие нам по интеллекту, мы сохраняем контроль над ними, но если системы станут умнее нас, мы потеряем контроль. Если же мы пытаемся сохранить контроль, разрабатывая все более продвинутые интеллектуальные агенты, мы попадаем в «Уловку-22»[3], так как механизм контроля должен быть умнее контролируемого агента или хотя бы иметь тот же уровень интеллекта. Это приведет к тому, что для контроля систем, возможности которых постоянно растут, потребуется целая иерархия интеллектуальных систем.

Более того, задача контроля более мощного интеллекта усложняется и, очевидно, становится недоступной для агентов с постоянным уровнем интеллекта. Контролировать ситуацию будет тот, кто умнее, и он же будет принимать окончательные решения. Насколько нам известно, на данный момент нигде в мире не существует не только действующего механизма контроля ИИ, который можно было бы масштабировать до ИИ человеческого уровня и (когда-нибудь) выше, но даже представления о том, каким мог бы быть прототип такого механизма. Никто до сих пор не доказал наличия таких технологий – а ведь если кто-то утверждает, что задача контроля ИИ решаема, он должен доказать это. Но пока, судя по всему, наша способность создавать интеллектуальное ПО намного выше нашей возможности контролировать или даже проверять его.

1.4. Определение безопасного ИИ

В статье «Определение искусственного интеллекта» («On Defining Artificial Intelligence») Пэй Ван дает следующее определение [19]: «Интеллект – это способность системы обработки информации адаптироваться к среде и при этом работать в условиях недостаточных данных и ресурсов» [20]. Ван не только дает совершенно адекватную формулировку, но и рассматривает другие определения интеллекта, уже ставшие стандартом [21]. Однако есть существенная разница между определением интеллекта вообще или человеческого интеллекта в частности и определением ИИ, что и подразумевает заголовок работы Вана. В этой главе я бы хотел обозначить фундаментальные различия между ИИ и естественным интеллектом [22].

Обычно ИИ разрабатывают специально для получения пользы создателями и пользователями, и в определение ИИ важно включить эту отличительную особенность. Ван лишь мельком упоминает в своей статье концепцию безопасности ИИ [12, 23–26] и не анализирует ни ее, ни другие смежные концепции. Но я считаю неполными, а значит, опасными определения ИИ, в которых не упоминается в явном виде безопасность или хотя бы ее составные части: управляемость, объяснимость [27], постижимость, предсказуемость [28] и возможность внесения поправок [29].

Разработка сильного ИИ предсказуемо приведет к сдвигу вектора развития человеческой цивилизации [30]. Чтобы получить выгоду, избежав подводных камней настолько мощной технологии, важно иметь возможность контролировать ее. Полный контроль над интеллектуальной системой [31] подразумевает возможность ограничить ее производительность [32] – например, установить ей потолок, эквивалентный определенному IQ. Дополнительные средства контроля могли бы отключать систему [33], включать и отключать ее сознание [34, 35], свободу воли, собственный выбор цели и задавать моральные принципы [36], которыми система должна руководствоваться в принятии решений. Также необходима возможность вносить поправки в систему после ее развертывания [1, 37] для устранения проблем, обнаруженных в ходе эксплуатации. Система ИИ должна быть способна объяснить свои решения понятным человеку языком, насколько это теоретически возможно. А разработчики и конечные пользователи должны иметь возможность в общих чертах прогнозировать ее поведение. При необходимости систему нужно ограничить определенной средой [38–40] или сократить доступные ей вычислительные ресурсы. Работа ИИ должна быть максимально непредвзятой и прозрачной, ИИ должен быть доброжелательным [41] и безопасным [2].

Соответственно, мы предлагаем следующее определение ИИ, дополняющее формулировку Вана: «Искусственный интеллект – это полностью контролируемый агент, система обработки информации которого обладает способностью адаптироваться к среде, работая в условиях недостаточных данных и ресурсов».

1.5. Управляемость ИИ

Чтобы в будущем ИИ приносил пользу всему человечеству, инициативы по управлению ИИ пытаются подчинить ИИ различным правительствам, международным организациям и транснациональным корпорациям мира, которые совместно разрабатывают нормативную базу и отраслевые стандарты. Поскольку пытаться непосредственно управлять ИИ бессмысленно, этот термин подразумевает управление исследователями и создателями ИИ – иными словами, им разрешают разрабатывать определенные продукты и услуги определенными способами. Возможность управлять учеными и инженерами, работающими над ИИ, зависит от сложности создания сильного ИИ.

Если окажется, что вычислительные ресурсы и сбор данных, необходимые для создания сильного ИИ, сравнимы по стоимости и объему человеческого капитала с «Манхэттенским проектом», в рамках которого США разработали атомную бомбу, правительства получат целый ряд способов, чтобы направлять исследователей и приспособить будущий ИИ под свои требования. С другой стороны, если выяснится, что первый сильный ИИ, или т. н. «исходный» ИИ, который может вырасти в полномасштабный сверхинтеллект, может создать подросток с тысячедолларовым ноутбуком у себя в гараже (вариант менее вероятный, но все же возможный), то попытки контроля со стороны государств могут оказаться тщетными. В реальности же мы видим, что известные из истории попытки регулировать сферу ПО (например спам, компьютерные вирусы, дипфейки) дали весьма ограниченный результат. Когда сильный ИИ обретет независимость, он может стать неконтролируемым, поскольку традиционные методы распределения ответственности, принуждения и санкций несостоятельны по отношению к ПО.

Но даже в том благоприятном случае, если дорогостоящее управление ИИ все же окажется возможным, останется ряд технических ограничений предсказуемости [17], объяснимости [16] и контролируемости ИИ [42]. Как следствие, управляемость ИИ, для которой требуются как минимум эти три параметра, тоже будет достижима лишь частично, а значит, ИИ, превосходящий интеллект человека, в некоторых важных аспектах выйдет за пределы нашего контроля. Уполномоченные лица при этом не захотят брать на себя ответственность за ошибки [43] или намеренные действия ИИ, даже если они были допущены или выполнены в установленных и регулируемых рамках – а значит, высокопроизводительный, изобретательный, неконтролируемый сильный ИИ сможет косвенно или даже напрямую контролировать некоторые организации и лица, которым будет доверено управлять интеллектуальным ПО.

[3] Логический парадокс, описанный в одноименном романе Джозефа Хеллера, – выполнение условий задачи одновременно обеспечивает невыполнимость задачи. – Прим. пер.