ИИ: Необъяснимый, непредсказуемый, неконтролируемый (страница 6)
38. Babcock J., Kramar J., Yampolskiy R. The AGI Containment Problem, in The Ninth Conference on Artificial General Intelligence (AGI2015). July 16–19, 2016. NYC, USA.
39. Majot A.M., Yampolskiy R.V. AI safety engineering through introduction of self-reference into felicific calculus via artificial pain and pleasure, in IEEE International Symposium on Ethics in Science, Technology and Engineering. May 23–24, 2014. Chicago, IL: IEEE.
40. Lehman J., Clune J., Misevic D. The surprising creativity of digital evolution, in Artificial Life Conference Proceedings. 2018. MIT Press.
41. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1): p. 138–152[18].
42. Vinge’s Principle, in Arbital. https://arbital.com/p/Vinge_principle (дата обращения: 15.10.2024).
43. Vingean Reflection, in Aribital. https://arbital.com/p/Vingean_reflection (дата обращения: 15.10.2024).
44. Cantlon J.F., Brannon E.M. Basic math in monkeys and college students. PLoS Biology, 2007. 5(12): p. e328.
45. Baum S., Barrett A., Yampolskiy R.V. Modeling and interpreting expert disagreement about artificial superintelligence. Informatica, 2017. 41(7): p. 419–428.
46. Bostrom N. Singularity and Predictability. http://mason.gmu.edu/~rhanson/vc.html (дата обращения: 15.10.2024).
47. Nielsen M. Comment by Michael Nielsen. http://mason.gmu.edu/~rhanson/vc.html (дата обращения: 15.10.2024).
48. Yudkowsky E., Herreshoff M. Tiling Agents for Self-modifying AI, and the Lobian Obstacle. MIRI Technical Report, 2013.
49. Strong Cognitive Uncontainability, in Arbital. https://arbital.com/p/strong_uncontainability (дата обращения: 15.10.2024).
50. Israeli N., Goldenfeld N. Computational irreducibility and the predictability of complex physical systems. Physical Review Letters, 2004. 92(7): p. 074105.
51. Fallenstein B., Soares N. Vingean Reflection: Reliable Reasoning for SelfImproving Agents. 2015: Citeseer.
52. Rahwan I., Cebrian M. Machine Behavior Needs to Be an Academic Discipline, in Nautilus. https://nautil.us/machine-behavior-needs-to-be-an-academic-discipline-237022 (дата обращения: 15.10.2024).
53. Rahwan I., et al. Machine behaviour. Nature, 2019. 568(7753): p. 477.
54. Mokhtarian E. The bot legal code: developing a legally compliant artificial intelligence. Vanderbilt Journal of Entertainment & Technology Law, 2018. 21: p. 145.
55. Bathaee Y. The artificial intelligence black box and the failure of intent and causation. Harvard Journal of Law & Technology, 2018. 31(2): p. 889.
56. Turchin A., Denkenberger D. Classification of global catastrophic risks connected with artificial intelligence. AI & Society, 2018. 35: p. 1–17.
57. De Garis H. The Artilect War. https://agi-conf.org/2008/artilectwar.pdf (дата обращения: 15.10.2024).
58. Babcock J., Kramar J., Yampolskiy R. V. Guidelines for artificial intelligence containment. arXiv preprint arXiv:1707.08476, 2017.
59. Trazzi M., Yampolskiy R. V. Building safer AGI by introducing artificial stupidity. arXiv preprint arXiv:1808.03644, 2018.
60. Behzadan V., Munir A., Yampolskiy R. V. A psychopathological approach to safety engineering in AI and AGI, in International Conference on Computer Safety, Reliability, and Security. 2018. Springer.
61. Ozlati S., Yampolskiy R. The formalization of AI risk management and safety standards, in Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.
62. Ramamoorthy A., Yampolskiy R. Beyond mad? The race for artificial general intelligence. ITU J, 2018. 1: p. 1–8.
63. Bostrom N. The superintelligent will: motivation and instrumental rationality in advanced artificial agents. Minds and Machines, 2012. 22(2): p. 71–85.
64. Omohundro S.M. The Basic AI Drives, in AGI. 2008.
65. Yampolskiy R.V. Artificial consciousness: An illusionary solution to the Hard problem. Reti, Saperi, Linguaggi, 2018. (2): p. 287–318[19].
Глава 3
Необъяснимость и непостижимость[20]
Если бы лев умел говорить, мы бы его не поняли.
Людвиг Витгенштейн
Можно было бы описать все научно, но это не имело бы смысла; это было бы лишено смысла, как если бы вы описали симфонию Бетховена как изменение волнового давления.
Альберт Эйнштейн
Объяснять что-либо в этой жизни вообще очень трудно… Не важно, на каком языке… Особенно если объясняешь не другим, а самому себе. Очень важно не перестараться, иначе где-нибудь обязательно вылезет ложь.
Харуки Мураками
Я понимаю, что вы не понимаете.
Григорий Перельман
Если вы не можете объяснить это просто – значит, вы сами не понимаете этого до конца.
Альберт Эйнштейн
Если бы человеческий мозг был так прост, что мы могли бы его понять, мы были бы так просты, что не смогли бы его понять.
Эмерсон М. Пью
3.1. Введение
На протяжении десятилетий ИИ-проекты опирались на человеческий опыт специалистов в области инженерии знаний. Не было проблем ни с проектированием, ни с пониманием ИИ. Например, экспертные системы, которые часто создавались на основе дерева принятия решений, были идеальными моделями человеческого выбора, совершенно понятными и разработчикам, и конечным пользователям. В последнее десятилетие, когда с развитием систем машинного обучения на основе глубоких нейронных сетей (Deep Neural Network, DNN) доминирующая методология ИИ коренным образом менялась, простотой для понимания пришлось пожертвовать. Сегодняшние системы представляют собой «черные ящики» (это не то же самое, что «AI-boxing»: «ИИ в изолированной программной среде» [1, 2]), недоступные для понимания человеком, но исключительно производительные в отношении как результатов, так и обучения на новых предметных областях. Пока существуют большие данные и большие вычисления, для получения сверхчеловеческой производительности [3] не требуется человеческих знаний [4]. Благодаря новым возможностям ИИ на основе DNN такие системы применяются в принятии решений в отделах кадров [5], приемных комиссиях [6], управлении инвестициями [7], знакомствах [8], обеспечении разнообразия [9], безопасности [10, 11], рекомендательных системах [12], банковской сфере [13] и многих других важных предметных областях. Поскольку многие из таких предметных областей регулируются законодательством, очень желательно, а зачастую и обязательно [14, 15], чтобы они были способны объяснить, как они пришли к выбранному решению и доказать свою беспристрастность [16]. Еще важнее то, что для создания безопасных и защищенных систем искусственного интеллекта [17] необходимо понимать, что они делают и почему. Особый интерес для безопасности ИИ [18–25] представляет прогнозирование сбоев ИИ и объяснение их причин [26].
В настоящее время очень много исследований [27–41] посвящено разработке объяснимого ИИ. В следующем разделе рассматриваются основные результаты и общие тенденции по данной теме.
3.2. Обзор литературных источников
Объяснимому искусственному интеллекту (eXplainable Artificial Intelligence, XAI) посвящены сотни работ [42]. По словам представителей Управления перспективных исследовательских проектов Министерства обороны США (DARPA) [27], XAI должен «создавать более объяснимые модели, сохраняя высокий уровень эффективности обучения… чтобы пользователи-люди могли понимать ИИ, доверять ему и эффективно работать в партнерстве с ИИ нового поколения». В задачи данной главы не входит подробный анализ литературных источников, посвященных объяснимости и постижимости, но читателям рекомендуется ознакомиться с соответствующими обзорами [43–45]. Миллер [46] полагает, что общественные науки могли бы помочь разобраться в человеческом механизме объяснения, чтобы передать это знание XAI – но люди часто сами не понимают или не могут объяснить те или иные вещи. Например, многие люди неспособны объяснить, как они распознают лица, а ведь мы часто ставим такую задачу перед компьютерами [47, 48].
Несмотря на изобилие публикаций по XAI и смежным концепциям [49–51], тема необъяснимости или непостижимости ИИ затрагивается лишь косвенно. Иногда ограничения объяснимости обсуждаются в следующем ключе: «Алгоритмы машинного обучения (МО) по своей природе предусматривают высокую степень связности между входными признаками, из-за чего сложно вычленить такие функции в понятную для человека форму… Если одиночную линейную трансформацию можно интерпретировать по весовым коэффициентам входных признаков для каждого выходного класса, то для нескольких слоев с нелинейными взаимосвязями в каждом слое придется извлекать сверхсложную иерархическую структуру, а это нелегкая задача, необходимость решения которой неочевидна [52]… Как уже отмечалось, с учетом сложной структуры моделей МО сложные алгоритмы МО могут создавать множество точных моделей для одного и того же набора входных переменных и задач прогнозирования за счет сходных, но не идентичных внутренних методов решения в сети, поэтому в разных точных моделях подробности объяснения тоже могут различаться. Подобная системная нестабильность делает автоматически генерируемые объяснения сложными для восприятия» [42].
Сатклифф и др. говорят о непостижимых теоремах [53]: «Доступность для восприятия соответствует усилию, которое должен сделать человек для того, чтобы понять теорему. Теоремы из множества частей или со сложной структурой можно считать трудными для восприятия». Магглтон и др. [54] предлагают «использовать длительность ознакомления как приблизительный показатель непонимания, т. е. людям потребуется много времени… если программа трудна для восприятия. Время ознакомления как приблизительный показатель измерить легче, чем понимание».
Компромисс между объяснимостью и постижимостью признают [52], но не доводят до логического вывода. «Как правило, точность требует более сложных методов прогнозирования, [но] из простых интерпретируемых функций получаются не самые точные средства прогнозирования» [55]. «И действительно, одни алгоритмы поддаются интерпретации лучше других, и зачастую нужен компромисс между точностью и возможностью интерпретации: самые точные ИИ/МО-модели (глубокие нейросети, градиентный бустинг деревьев решений, случайный лес, метод опорных векторов и т. д.) обычно не очень хорошо поддаются объяснению, а самые понятные модели (линейная или логистическая регрессия) обычно менее точны» [42].
