ИИ: Необъяснимый, непредсказуемый, неконтролируемый (страница 3)
1.6. Выводы
Можно обеспечить безопасность систем слабого ИИ (Narrow Artificial Intelligence, NAI), поскольку таким системам доступно лишь ограниченное число вариантов выбора, а значит, все неблагоприятные решения и грубые ошибки можно предусмотреть и принять меры. Но для сильного ИИ пространство возможных решений и ошибок бесконечно, т. е. независимо от числа устраненных уязвимостей в системе всегда останется бесконечное множество потенциальных проблем. И это бесконечное пространство возможностей нельзя ни полностью отладить, ни даже просто проверить на безопасность. То же справедливо для защиты интеллектуальных систем. У слабого ИИ площадь атаки конечна, а сильный ИИ дает злоумышленникам и хакерам безграничный простор для действий [44]. В смысле защиты это означает, что защитникам приходится оборонять бесконечный рубеж, а нападающим для преодоления защиты достаточно найти одну уязвимую точку. Кроме того, каждый новый патч для устранения ошибок защиты и каждый новый механизм защиты создают новые уязвимости – и так до бесконечности. На данный момент исследования безопасности ИИ – это фактически поиск новых видов сбоев и создание патчей для их устранения – по сути, фиксированный набор правил для бесконечного набора задач. Эта проблема носит фрактальный характер: в каком масштабе ее ни изучай, на каждом уровне возникает множество сложностей. Таким образом, проблема контроля ИИ обладает фрактальной невозможностью решения: она содержит нерешаемые подзадачи на всех уровнях абстракции и нерешаема в целом [45].
Следует помнить, что отсутствие контроля ИИ также означает, что злоумышленники не смогут полностью обратить ИИ себе на пользу. Крайне важно, чтобы любой способ разработки и внедрения ИИ предусматривал механизм отмены принятых решений, если они окажутся нежелательными. Но текущие подходы к разработке ИИ не используют этого средства защиты.
1.7. Об этой книге
Во вступительной главе мы закладываем фундамент для центральных тем, отраженных в названии книги, трех принципов невозможности ИИ: необъяснимости, непредсказуемости, неконтролируемости. Главная мысль заключается в том, что по мере своего развития ИИ становится все менее предсказуемым, его все труднее объяснить и контролировать. В каждой главе эти темы критически анализируются, автор углубляется в детали, выдвигая на передний план наиболее важные аспекты ИИ. Главы не связаны друг с другом, поэтому их можно читать в любом порядке или пропускать.
В последующих главах мы рассмотрим некоторые утверждения о непредсказуемости, необъяснимости и непостижимости ИИ, подразумевающие, что действия ИИ сложно спрогнозировать и что принципы, лежащие в основе его решений, остаются загадкой даже для его создателей. Еще одна сложная концепция – непроверяемость – подчеркивает трудности проверки доказательств, создаваемых ИИ, и тем самым бросает тень на его непогрешимость.
Как обсуждается в главе «Невозможность владения», сама суть владения ИИ конфликтует с традиционными представлениями об ответственности, что делает крайне затруднительным владение продвинутыми интеллектуальными системами. При этом концепция неконтролируемости ставит под сомнение нашу способность управлять возрастающей мощью искусственного интеллекта, особенно сильного ИИ.
В следующих главах описаны потенциальные угрозы ИИ и условия их проявления. В главе «Пути к опасному ИИ» рассматриваются потенциальные способы получить вредоносный ИИ. Глава «Сбои» экстраполирует потенциальные риски и беспрецедентные последствия сбоев ИИ. В каждой последующей главе приводятся дополнительные аргументы в пользу того, что по мере своего развития ИИ может в корне изменить общество, причем необязательно на пользу человеку.
Во второй половине книги подробно разбираются противоречивые вопросы правообъектности и сознания ИИ. Оцениваются последствия наделения ИИ юридическими правами, рассматриваются концепции возможности возникновения эгоистичных мемов и взлома правовой системы.
В главе «Персонализированные вселенные» изучается концепция согласования ценностей. В этой области много сложностей, но она предлагает пути оптимального согласования ИИ с индивидуальными человеческими ценностями.
Глава «Человек ≠ сильный ИИ» посвящена различиям между способностями сильного ИИ и человекоподобного ИИ. В ней утверждается, что человек, по сути, не обладает общим интеллектом.
В последней главе, «Скептицизм», изучаются отрицание и недооценка рисков, связанных с ИИ, проводятся параллели с другими формами научного скептицизма.
Читателя ждет увлекательный и иногда пугающий мир ИИ. Зная эти базовые концепции и понимая их следствия, человек сможет лучше подготовиться к будущему, которое будет создаваться под действием ИИ. Мы надеемся, что эта книга поможет читателю проникнуться сложностями и проблемами ИИ и осознать, что на пути к ИИ придется не только создавать интеллектуальные машины, но и разбираться в их сложных отношениях с человеком и обществом. В путь!
Использованные материалы
1. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1): p. 138–152[4].
2. Yampolskiy R.V. Artificial Intelligence Safety and Security. 2018: Chapman and Hall/CRC Press.
3. Cave S., Dihal K. Hopes and fears for intelligent machines in fiction and reality. Nature Machine Intelligence, 2019. 1(2): p. 74–78.
4. Avin S., et al. Filling gaps in trustworthy development of AI. Science, 2021. 374(6573): p. 1327–1329.
5. Beridze I., Butcher J. When seeing is no longer believing. Nature Machine Intelligence, 2019. 1(8): p. 332–334.
6. Tzachor A., et al. Artificial intelligence in a crisis needs ethics with urgency. Nature Machine Intelligence, 2020. 2(7): p. 365–366.
7. Cave S., OhEigeartaigh S. S. Bridging near-and long-term concerns about AI. Nature Machine Intelligence, 2019. 1(1): p. 5–6.
8. Theodorou A., Dignum V. Towards ethical and socio-legal governance in AI. Nature Machine Intelligence, 2020. 2(1): p. 10–12.
9. Nature Machine Intelligence, How to be responsible in AI publication. Nature Machine Intelligence, 2021. 3. https://www.nature.com/articles/s42256-021-00355-6 (дата обращения: 14.10.2024).
10. Crawford K. Time to regulate AI that interprets human emotions. Nature, 2021. 592(7853): p. 167–167.
11. Yampolskiy R. On controllability of artificial intelligence, in IJCAI-21 Workshop on Artificial Intelligence Safety (Al Safety 2021). 2020.
12. Bostrom N. Superintelligence: Paths, Dangers, Strategies. 2014: Oxford University Press[5].
13. Pfleeger S., Cunningham R. Why measuring security is hard. IEEE Security & Privacy, 2010. 8(4): p. 46–54.
14. Howe W., Yampolskiy R. Impossibility of unambiguous communication as a source of failure in Al systems, in AISafety@ IJCAI. 2021.
15. Yampolskiy R.V. AGI control theory, in Artificial General Intelligence: 14th International Conference, AGI 2021, Palo Alto, CA, USA, October 15–18,2021, Proceedings 14. 2022. Springer.
16. Yampolskiy R.V. Unexplainability and incomprehensibility of AI. Journal of Artificial Intelligence and Consciousness, 2020. 7(2): p. 277–291[6].
17. Yampolskiy R.V. Unpredictability of AI: On the impossibility of accurately predicting all actions of a smarter agent. Journal of Artificial Intelligence and Consciousness, 2020. 7(1): p. 109118[7].
18. Yampolskiy R. V. What are the ultimate limits to computational techniques: Verifier theory and unverifiability. Physica Scripta, 2017. 92(9): p. 093001[8].
19. Wang P. On defining artificial intelligence. Journal of Artificial General Intelligence, 2019. 10(2): p. 1–37.
20. Wang P. Non-Axiomatic Reasoning System: Exploring the Essence of Intelligence. 1995: Citeseer.
21. Legg S., Hutter M. Universal intelligence: A definition of machine intelligence. Minds and Machines, 2007. 17(4): p. 391–444.
22. Yampolskiy R.V. On the origin of synthetic life: Attribution of output to a particular algorithm. Physica Scripta, 2016. 92(1): p. 013002.
23. Yampolskiy R.V. Artificial intelligence safety engineering: Why machine ethics is a wrong approach, in Philosophy and Theory of Artificial Intelligence, V. C. Muller, Editor. 2013, Springer. p. 389–396.
24. Yampolskiy R.V., – Safety Engineering for Artificial General Intelligence. Topoi. Special Issue on Machine Ethics & the Ethics of Building Intelligent Machines, 2012.
25. Yudkowsky E. Complex value systems in friendly AI, in Artificial General Intelligence, J. Schmidhuber, K. Thorisson, and M. Looks, Editors. 2011, Springer. p. 388–393.
26. Yampolskiy R.V. Artificial Superintelligence: A Futuristic Approach. 2015: Chapman and Hall/CRC.
27. Yampolskiy, R.V., Unexplainability and Incomprehensibility of Artificial Intelligence. https://arxiv.org/abs/1907.03869 (дата обращения: 14.10.2024).
28. Yampolskiy R.V. Unpredictability of AI. arXiv preprint arXiv:1905.13053, 2019.
29. Soares N., et al. Corrigibility, in Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
30. Baum S.D., et al. Long-term trajectories of human civilization. Foresight, 2019. 21(1): p. 53–83.
31. Yampolskiy R.V. The space of possible mind designs, in International Conference on Artificial General Intelligence. 2015. Springer.
32. Trazzi M., Yampolskiy R.V. Building safer AGI by introducing artificial stupidity. arXiv preprint arXiv:1808.03644, 2018.
33. Hadfield-Menell D., et al. The off-switch game, in Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.
34. Elamrani A., Yampolskiy R.V. Reviewing tests for machine consciousness. Journal of Consciousness Studies, 2019. 26(5–6): p. 35–64.
35. Yampolskiy R.V. Artificial consciousness: An illusionary solution to the hard problem. Reti, Saperi, Linguaggi, 2018. (2): p. 287–318: https://www.rivisteweb.it/doi/10.12832/92302 (дата обращения: 14.10.2024)[9].
36. Majot A.M., Yampolskiy R.V. AI safety engineering through introduction of self-reference into felidfic calculus via artificial pain and pleasure, in 2014 IEEE International Symposium on Ethics in Science, Technology and Engineering. 2014, IEEE.
37. Scott P.J., Yampolskiy R.V. Classification schemas for artificial intelligence failures. arXiv preprint arXiv:1907.07771, 2019.
38. Yampolskiy R.V. Leakproofing singularity-artificial intelligence confinement problem. Journal of Consciousness Studies JCS, 2012. 19(1–2): p. 194–214. https://www.ingentaconnect.com/contentone/imp/jcs/2012/00000019/f0020001/art00014 (дата обращения: 14.10.2024).
39. Armstrong S., Sandberg A., Bostrom N. Thinking inside the box: controlling and using an oracle AI. Minds and Machines, 2012. 22(4): p. 299–324.
40. Babcock J., Kramar J., Yampolskiy R. The AGI containment problem, in International Conference on Artificial General Intelligence. 2016. Springer.
41. Muehlhauser L., Bostrom N. Why we need friendly AI. Think, 2014. 13(36): p. 41–47.
42. Yampolskiy R.V. On controllability of AI. arXiv preprint arXiv:2008.04071, 2020.
43. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1). https://www.emerald.com/insight/content/doi/10.1108/FS-04-2018-0034/full/html (дата обращения: 14.10.2024)[10].
44. Buckner C. Understanding adversarial examples requires a theory of artefacts for deep learning. Nature Machine Intelligence, 2020. 2(12): p. 731–736.
45. Yampolskiy R.V. On the controllability of artificial intelligence: An analysis of limitations. Journal of Cyber Security and Mobility, 2022: p. 321–404. https://doi.org/10.13052/jcsm2245-1439.1132 (дата обращения: 14.10.2024)[11].
Глава 2
Непредсказуемость[12]
По мере обучения машины могут развить непредсказуемые стратегии такими темпами, которые недостижимы для их программистов.
[4] См. также главу 8 данной книги. –Прим. пер. [5] См. также: Бостром Н. Искусственный интеллект. Этапы. Угрозы. Стратегии. Издательство: Манн, Иванов и Фербер, 2016 г. –Прим. пер. [6] См. также главу 3 данной книги. –Прим. пер. [7] См. также главу 2 данной книги. –Прим. пер. [8] См. также главу 4 данной книги. –Прим. пер. [9] См. также главу 10 данной книги. –Прим. пер. [10] См. также главу 8 данной книги. –Прим. пер. [11] См. также главу 6 данной книги. –Прим. пер. [12] Текст воспроизведен с разрешения World Scientific из статьи «Непредсказуемость ИИ: невозможно точно предсказать все действия превосходящего по интеллекту агента» («Unpredictability of AI: On the Impossibility of Accurately Predicting All Actions of a Smarter Agent») Романа Ямпольского, Journal of Artificial Intelligence and Consciousness, Vol 7, Issue № 1., Copyright © 2020 by World Scientific.
