ИИ: Необъяснимый, непредсказуемый, неконтролируемый (страница 7)
Непостижимость подтверждается широко известными утверждениями о невозможности. Чарлсворт доказал свою теорему постижимости, пытаясь сформулировать ответ на такие вопросы, как: «Если могут существовать программные средства с полноценным искусственным интеллектом уровня человека, поймут ли их люди?» [56] Описывая следствия своей теоремы применительно к ИИ, он отмечал [57]: «Теорема постижимости представляет собой первую математическую теорему, из которой следует невозможность любого агента ИИ или естественного агента – в т. ч. человека, который может заблуждаться, – выполнять строгую дедуктивную интерпретацию проблемы самопостижимости… Самопостижимость в каком-то представлении может быть залогом некоего подобия самокритики, полезной для саморазвития, которое может дать определенным агентам возможность чаще побеждать». Резонно сделать вывод, что система, которая себя не понимает, не сможет себя объяснить.
Эрнандес-Оральо и др. вводят понятие k-непостижимости (также известное как k-сложность) [58]. «С формальной точки зрения, это аналог нашего понятия хороших объяснений, которые сложно усвоить. Как мы понимаем, k-непостижимая строка с высоким значением k (сложная для понимания) сложнее, чем k-сжимаемая строка (сложная для усвоения) [59] и отличается от классической вычислительной сложности (приводящей к низкой скорости вычислений). Определение значения k для конкретной строки невозможно. К счастью, обратное выражение, т. е. является ли строка k-постижимой при произвольном k, поддается вычислению… Колмогоровская сложность измеряет количество информации, а не сложность ее восприятия» [58].
В своей работе, посвященной пространству возможных разумов, Ямпольский рассматривает пределы понимания других агентов [60]: «Модель каждого разума соответствует некому целому числу и, следовательно, является конечной, но, поскольку количество разумов является бесконечной величиной, определенная их часть имеет гораздо больше состояний, чем остальные. Данное свойство справедливо для всех разумов. Следовательно, поскольку человеческий разум имеет конечное число возможных состояний, есть разумы, которые человеческий разум никогда не сможет понять до конца, т. к. подобные модели разумов имеют гораздо большее число состояний, что делает их понимание невозможным. Это можно продемонстрировать на примере принципа Дирихле». Хиббард подчеркивает влияние непостижимости ИИ на безопасность: «С учетом непостижимости их мыслей мы не сможем разобраться в последствиях конфликтов между их и нашими интересами».
Постепенно мы начинаем понимать, что по мере увеличения мощности ИИ его модели успешного поведения будут нам все менее понятны [61]: «…при глубоком обучении результаты получают на основе множества переменных со множеством условий и преобразованиями во множестве слоев нейросетей, так что человек просто неспособен понять модель, построенную компьютером… Компьютеры явно превзошли нас по способности находить различия и закономерности и делать выводы. Это одна из причин, почему люди пользуются компьютерами. Можно не упрощать явления под относительно простую модель, пусть компьютер создает модели любого нужного ему размера. Но это также означает, что мы будем знать лишь то, что нам выдадут машины, действия которых мы не можем отследить, объяснить или понять… Некоторые новые модели недоступны для понимания. Они могут существовать только в виде весовых коэффициентов бесчисленных цифровых триггеров, соединенных в сеть, от которых последовательно распространяются слои связанных взвешенных триггеров, представляющих огромное число переменных, влияющих друг на друга так, что мы не в состоянии вывести для них какие-либо общие принципы».
«Сегодня машины показали нам, что даже при простых, элегантных, красивых и благоразумных правилах область, которую они регулируют, настолько детализирована, сложна и взаимосвязана, что все влияет на все сразу – и бесповоротно, и что человеческий мозг и знания даже на миллиметр не приблизились к ее пониманию… Мы стали полагаться на непрозрачные модели для обоснования наших взглядов, и это ставит нас в несколько странное положение. Знание подразумевает обоснование взглядов, и в данном случае обоснование состоит из моделей, загруженных в машины и непостижимых для человеческого разума… Но МО дает надежду, что однажды непрозрачные машинные модели станут намного более предсказуемыми, чем те, что созданы вручную и понятны человеку. В этом случае наше знание – если мы воспользуемся им – будет зависеть от обоснований, которые мы просто не понимаем… Скорее всего, мы и дальше будем полагаться на обоснования, которые даже не можем понять. И дело не только в том, что мы неспособны понять их, как человек с улицы не поймет ход мыслей специалиста по теории струн. Просто сама природа компьютерных суждений абсолютна несхожа с человеческими суждениями. Это чуждая нам логика» [61].
3.3. Необъяснимость
Широко известен ряд утверждений о невозможности во многих областях исследований [62–70]. Новые утверждения появляются в сфере исследований ИИ – например, это утверждения о непроверяемости [71], непредсказуемости[21] [72], ограничении предпочтительных выводов [73] и согласовании ценностей [74]. В этом разделе рассматривается понятие необъяснимости ИИ и демонстрируется, что некоторые решения систем сверхинтеллекта в принципе не могут быть объяснены. Рассмотрим самый интересный пример, в котором сверхразумный ИИ действует в новых и неограниченных областях. Простые примеры слабых ИИ, принимающих решения в ограниченных областях (например игра в крестики-нолики), и объяснимы, и понятны. Соответственно, можно получить целый спектр ИИ от совершенно объяснимых и постижимых до совершенно необъяснимых и непостижимых. Необъяснимость здесь означает невозможность дать совершенно точное и одновременно совершенно понятное объяснение определенных решений интеллектуальной системы.
Глубокие искусственные нейросети становятся все больше, иногда они состоят из миллионов нейронов, тысяч слоев и миллиардов весов соединений, приближаясь к размеру человеческого мозга, а может, даже превосходя его. Сети обучаются на больших данных, из которых они получают миллионы векторов признаков для принятия решений, где каждый признак влияет на решение пропорционально набору весов. Чтобы объяснить решение, основанное буквально на миллиардах факторов, ИИ должен либо упростить объяснение и тем самым сделать его менее точным, конкретным, детализированным, либо привести его в точности – но такое объяснение ничего не прояснит из-за своей семантической сложности, огромного размера и абстрактного представления данных. Точное представление станет просто копией обученной модели DNN.
