ИИ: Необъяснимый, непредсказуемый, неконтролируемый (страница 5)
2) …Обратный логический вывод из парадокса Ферми[16], который в некоторой степени свидетельствует об ограниченных возможностях даже самых мощных агентов, какие могут существовать в нашей вселенной. Например, стандартное моделирование физических процессов все еще может преподнести нам сюрпризы, но любое незапланированное путешествие на сверхсветовой скорости в ранее недоступную точку сильно затруднит объяснение парадокса Ферми» [49].
На более практическом примере предсказуемости Израэли и Голденфельд «…обнаружили, что вычислительно несводимые физические процессы можно прогнозировать и даже свести путем вычислений на грубом уровне описания. Полученные нами грубые данные [клеточные автоматы] эмулируют поведение исходных систем в целом, без учета мелких деталей» [50]. Дальнейшая работа над безопасностью ИИ будет в основном заключаться в том, чтобы определить, какие аспекты интеллектуальных машин можно прогнозировать и знать, даже если большая часть будущих состояний навсегда останется для нас непредсказуемой. В следующем разделе рассматриваются первые шаги на этом пути.
2.3. Когнитивная невместимость
Machine Intelligence Research Institute (MIRI), ведущая исследовательская организация в области безопасности ИИ, рассматривает непредсказуемость в рамках работы над безопасным самосовершенствованием агентов ИИ, обозначая ее как когнитивную невместимость. Этот термин означает, что человеческий разум неспособен представить все возможные решения и (или) стратегии передовых интеллектуальных систем. «Сильная когнитивная невместимость означает, что агенту известны некоторые факты, неизвестные нам, и он может использовать их для выработки стратегий, успешность которых мы не сможем предсказать заранее… Когда агент может достичь успеха, используя варианты, которые мы не можем ни представить себе, ни даже понять, даже заранее ознакомившись с ними, этот агент считается строго когнитивно невместимым…» [23]. «Если мы твердо уверены в способности самомодифицирующихся систем рассуждать о более умных агентах, представляется разумным выработать некую теоретическую основу для адекватного объяснения более умных агентов» [51]. Даже ИИ, уступающие человеку, могут быть непредсказуемыми для исследователей-людей. «Хотя непредсказуемость Винджа служит классической формой проявления невместимости, можно представить и другие варианты – например, ИИ, работающий в широкой области знаний, может осуществлять поиск в областях, малодоступных для людей, в целом оставаясь глупее и некомпетентнее человека. В этом случае стратегии ИИ все равно могут быть непредсказуемыми для нас, даже если в целом он менее эффективен или менее компетентен» [23].
«Аргументы в пользу сильной невместимости ссылаются на:
• Содержательность и частичную неизвестность определенной предметной области. Например, психология человека очень сложна, в ней много неизвестных связей, ранее обнаруженные уязвимости часто были совершенно неожиданными, следовательно, предметная область психологии человека должна обладать строгой невместимостью.
• Влияние взгляда извне на предшествующие способности, обусловленное когнитивными преимуществами. X век не может вместить XX век даже при том условии, что в обоих столетиях жил один биологический вид, homo sapiens. Почему мы решили, что именно наше поколение узнало истинные законы вселенной?» [49].
2.4. Выводы
Непредсказуемость – интуитивно понятная концепция. Как правило, мы можем прогнозировать результаты обычных физических процессов, не зная конкретного поведения отдельных атомов, – и точно так же мы можем предсказать общее поведение интеллектуальной системы, не зная отдельных промежуточных этапов. Рахван и Себриан отмечают, что «…сложные агенты ИИ часто проявляют внутреннюю непредсказуемость, демонстрируя неочевидное поведение, не поддающееся точному прогнозированию даже для собственных программистов. Такое поведение проявляется только через взаимодействие с миром и другими агентами вокруг… Фактически Алан Тьюринг с Алонсо Черчем доказали фундаментальную невозможность обеспечения определенных свойств алгоритма без запуска этого алгоритма. Существуют фундаментальные теоретические пределы нашей способности удостовериться в том, что определенный фрагмент кода всегда будет иметь нужные свойства, пока код не будет исполнен и человек не проследит его поведение» [52]. Более подробное исследование непредсказуемости и сопутствующих вопросов машинного поведения приведено у Рахвана и др. [53]
Другие ученые пришли к аналогичным выводам. «С учетом внутренней непредсказуемости ИИ не всегда целесообразно контролировать каждое действие бота» [54]. «По мере того, как компьютерные программы становятся все более умными и менее прозрачными, затрудняется прогнозирование неблагоприятных последствий, более того, сам процесс принятия решений программами тоже может стать непредсказуемым» [55]. «ИИ может стать настолько сложным, что погрязнет в ошибках и непредсказуемых последствиях, т. к. не сможет предугадать собственное поведение» [56]. «…поведение ИИ настолько усложнится, что станет непредсказуемым и потому потенциально опасным для человека» [57].
В контексте безопасности ИИ [58–61] и управления ИИ [62] непредсказуемость означает, что некоторые стандартные инструменты и механизмы защиты не смогут обеспечить безопасность использования развитых интеллектуальных систем. Например, Батхаи пишет о законодательном контроле: «…в силу непредсказуемости крайне маловероятно, что закон сможет поощрять или предотвращать некоторые последствия. Что хуже, слабость правовых структур позволит злоумышленникам с помощью алгоритмов перекладывать свои расходы на других без надежды на возмещение нанесенного ущерба» [55].
Напрашивается вывод, что непредсказуемость никогда не позволит нам получить полностью безопасный ИИ, но мы все равно стремимся повысить безопасность ИИ, потому что в какой-то мере можем давать прогнозы относительно разрабатываемых нами ИИ. Конечные цели агентов могут быть совершенно произвольными [63], но инструментальные цели [64] универсальны для всех достаточно интеллектуальных агентов. Дополнительный анализ показал, что все инструментальные цели можно свести к одному стимулу или метацели любых агентов – стать самым умным агентом, что в качестве побочного эффекта может породить сверхсознание [65], воздействие которого на поведение агента сделает его еще менее предсказуемым для нас.
Использованные материалы
1. Yampolskiy R.V. Artificial Intelligence Safety and Security. 2018: Chapman and Hall/CRC Press.
2. Callaghan V. et al. Technological Singularity. 2017: Springer.
3. Baum, S.D. et al. Long-term trajectories of human civilization. Foresight, 2019. 21(1): p. 53–83.
4. Duettmann A. et al. Artificial General Intelligence: Coordination & Great Powers.
5. Charisi V., et al. Towards moral autonomous systems. arXiv preprint arXiv: 1703.04741, 2017.
6. Brundage M., et al. The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228, 2018.
7. Fisher M., Lynch N., Peterson M. Impossibility of distributed consensus with one faulty process. Journal of ACM, 1985. 32(2): p. 374–382.
8. Grossman S.J., Stiglitz J.E. On the impossibility of informationally efficient markets. The American Economic Review, 1980. 70(3): p. 393–408.
9. Kleinberg J.M. An impossibility theorem for clustering, in Advances in Neural Information Processing Systems. 2003, MIT Press.
10. Strawson G. The impossibility of moral responsibility. Philosophical Studies, 1994. 75(1): p. 5–24.
11. Bazerman M.H., Morgan K.P., Loewenstein G.F. The impossibility of auditor independence. Sloan Management Review, 1997. 38: p. 89–94.
12. List C., Pettit P. Aggregating sets of judgments: An impossibility result. Economics & Philosophy, 2002. 18(1): p. 89–110.
13. Dufour J.-M. Some impossibility theorems in econometrics with applications to structural and dynamic models. Econometrica: Journal of the Econometric Society, 1997. 65: p. 1365–1387.
14. Yampolskiy R.V. What are the ultimate limits to computational techniques: Verifier theory and unverifiability. Physica Scripta, 2017. 92(9): p. 093001[17].
15. Armstrong S., Mindermann S. Impossibility of deducing preferences and rationality from human policy. arXiv preprint arXiv:1712.05812, 2017.
16. Eckersley P. Impossibility and uncertainty theorems in AI value alignment (or why your AGI should not have a utility function). arXiv preprint arXiv:1901.00064, 2018.
17. Yampolskiy R.V. The space of possible mind designs, in International Conference on Artificial General Intelligence. 2015. Springer.
18. Rice H.G. Classes of recursively enumerable sets and their decision problems. Transactions of the American Mathematical Society, 1953. 74(2): p. 358–366.
19. Wolfram S. A New Kind of Science. Vol. 5. 2002: Wolfram Media Champaign.
20. Moore C. Unpredictability and undecidability in dynamical systems. Physical Review Letters, 1990. 64(20): p. 2354.
21. Moore C. Generalized shifts: Unpredictability and undecidability in dynamical systems. Nonlinearity, 1991. 4(2): p. 199.
22. Vinge V. Technological singularity, in VISION-21 Symposium Sponsored by NASA Lewis Research Center and the Ohio Aerospace Institute. 1993.
23. Cognitive Uncontainability, in Arbital. https://arbital.com/p/uncontainability (дата обращения: 15.10.2024).
24. Itti L., Baldi P. A principled approach to detecting surprising events in video, in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). 2005. IEEE.
25. Itti L., Baldi P.F. Bayesian surprise attracts human attention, in Advances in Neural Information Processing Systems. 2006, 49(10): pp. 1295–1306. MIT Press.
26. Storck J., Hochreiter S., Schmidhuber J. Reinforcement driven information acquisition in non-deterministic environments, in Proceedings of the International Conference on Artificial Neural Networks, Paris. 1995. Citeseer.
27. Schmidhuber J. Simple algorithmic theory of subjective beauty, novelty, surprise, interestingness, attention, curiosity, creativity, art, science, music, jokes. Journal of SICE, 2009. 48(1): p. 21–32.
28. Yudkowsky E. Expected Creative Surprises, in Less Wrong. https://www.lesswrong.com/posts/rEDpaTTEzhPLz4fHh/expected-creative-surprises (дата обращения: 15.10.2024).
29. Yudkowsky E. Belief in Intelligence, in Less Wrong. https://www.lesswrong.com/posts/HktFCy6dgsqJ9WPpX/belief-in-intelligence (дата обращения: 15.10.2024).
30. Yudkowsky E. Aiming at the Target, in Less Wrong. https://www.lesswrong.com/posts/CW6HDvodPpNe38Cry/aiming-at-the-target (дата обращения: 15.10.2024).
31. Vingean Uncertainty, in Arbital. https://arbital.com/p/Vingean_uncertainty (дата обращения: 15.10.2024).
32. Campbell M., Hoane Jr A.J., Hsu F.-H. Deep blue. Artificial Intelligence, 2002. 134(1–2): p. 57–83.
33. Ferrucci D.A. Introduction to “This is Watson”. IBM Journal of Research and Development, 2012. 56(3–4): p. 235–249.
34. Yudkowsky E. Eliezer Yudkowsky on AlphaGo’s Wins, in Future of Life Institute. https://futureoflife.org/2016/03/15/eliezer-yudkowsky-on-alphagos-wins (дата обращения: 15.10.2024).
35. Silver D., et al. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play. Science, 2018. 362(6419): p. 1140–1144.
36. Pistono F., Yampolskiy R.V. Unethical research: how to create a malevolent artificial intelligence. arXiv preprint arXiv:1605.02817, 2016.
37. Yampolskiy R.V. What to do with the singularity paradox? in Philosophy and Theory of Artificial Intelligence. 2013, Springer. p. 397–413.
