Наукообразная чушь (страница 6)

Страница 6

Идея Кадди, будто люди, на две минуты принимающие позу силы, могут “существенно менять исход жизненных ситуаций”, вызвала глубокий отклик: ее выступление на конференции TED стало вторым по количеству просмотров из всех – его посмотрели больше семидесяти трех с половиной миллионов раз[74]. Далее, в 2015 году, вышла книга Кадди по саморазвитию под названием “Присутствие [духа]”, бестселлер по версии газеты The New York Times, и издатель сообщал нам, что там представлена “захватывающая наука”, способная “освободить [нас] от страха в напряженные моменты жизни”[75]. Консервативная партия Великобритании, похоже, прониклась идеей Кадди, поскольку в тот самый год появилась череда фотографий, на которых представители этой партии на разных конференциях и выступлениях принимали позы с широко расставленными ногами, что вызвало немало насмешек[76]. В том же 2015 году другая команда ученых попыталась воспроизвести эффекты поз силы. И хотя те, кто принимал такие позы, действительно сообщали о большей уверенности в себе, исследование, увы, “не подтвердило влияние поз силы на тестостерон, кортизол и финансовый риск”[77].

Кризис воспроизводимости направил прожектор критики также и на более ранние работы по психологии – со сходными тревожными результатами. Вероятно, самое известное исследование по психологии за всю историю – это стэнфордский тюремный эксперимент 1971 года, когда психолог Филип Зимбардо разделил группу молодых мужчин на “охранников” и “заключенных” и велел им неделю оставаться в импровизированной тюрьме в подвале факультета психологии Стэнфордского университета. Настораживающе быстро, по словам Зимбардо, “охранники” принялись наказывать “заключенных”, мучая их столь садистски, что Зимбардо пришлось досрочно прекратить эксперимент[78]. Наряду с исследованиями подчинения, проведенными в 1960-х годах Стэнли Милгрэмом, в которых обнаружилось, что многие участники готовы воздействовать сильными электрическими разрядами на незадачливых “учеников” (удары током и ученики были ненастоящими, но участники об этом не знали), эксперимент Зимбардо приводится как одно из основных доказательств власти ситуации над человеческим поведением[79]. Поставьте, как говорится, хорошего человека в плохую ситуацию – и дела могут очень быстро пойти очень скверно. О стэнфордском тюремном эксперименте рассказывают фактически каждому студенту на планете, изучающему психологию, и Зимбардо благодаря ему стал одним из самых известных и уважаемых современных психологов. Он использовал результаты своего эксперимента, чтобы, например, выступать в качестве свидетеля-эксперта на суде над американскими военными, служившими охранниками в иракской тюрьме Абу-Грейб. Зимбардо утверждал, что ситуация, в которой оказались охранники, и роли, которые их заставили на себя взять, – вот причины их шокирующих издевательств и пыток над заключенными[80].

Хотя выводы из стэнфордского тюремного эксперимента всегда были противоречивы, лишь недавно мы начали понимать, насколько низкокачественным было то исследование[81]. В 2019 году ученый и кинорежиссер Тибо Ле Тексье опубликовал статью под названием “Разоблачение стэнфордского тюремного эксперимента”. Он представил доселе неизвестную расшифровку видеозаписей, на которых Зимбардо вмешивается непосредственно в эксперимент, раздавая своим “охранникам” очень точные инструкции, как себя вести, – вплоть до того, что предлагает конкретные способы обесчеловечивания заключенных, например отказывать им в использовании туалетов[82]. Очевидно, столь основательно срежиссированная постановка эксперимента была далека от естественного примера того, что происходит, когда обычные люди оказываются в специфических социальных ролях. Как бы то ни было, несмотря на колоссальное внимание, которое долгие годы привлекал к себе стэнфордский тюремный эксперимент, его “результаты” с научной точки зрения не имеют смысла[83].

Как вы, наверное, догадались, психологов напугала совокупность неудавшихся попыток повторить эксперименты (как в исследованиях прайминга) и странных результатов (вроде паранормальных открытий Бема) наряду с разоблачением ложных представлений (как в эксперименте Зимбардо) и мошенничества (поддельные данные Стапела). Скольким же исследованиям в области психологии, недоумевали они, можно доверять? Чтобы получить представление о том, насколько дела плохи, они начали объединяться в команды для проведения крупномасштабных повторов значимых исследований в разных лабораториях. Самым заметным стало крупное сообщество ученых, отобравшее сто работ из трех топовых журналов по психологии и попытавшееся их воспроизвести. Читать о результатах, опубликованных в 2015 году в Science, было горько: в конечном счете лишь 39 % работ были признаны успешно воспроизведенными[84]. В другом подобном предприятии 2018 года ученые пытались повторить двадцать одно исследование по социальным наукам из двух самых авторитетных многопрофильных журналов в мире – Nature и Science. На сей раз воспроизвелось 62 %[85]. В последующих масштабных повторах исследований, касающихся разнообразных психологических феноменов, воспроизвелось 77, 54 и 38 % результатов[86]. Почти все повторы, даже успешные, продемонстрировали, что в исходных статьях эффекты были преувеличены. В целом кризис воспроизводимости легким движением руки стер, похоже, около половины всех исследований по психологии[87].

Возможно, все не столь уж плохо – по двум причинам. Во-первых, следует ожидать, что некоторые результаты, на самом деле надежные, иногда не получается воспроизвести просто по невезению[88]. Во-вторых, какие-то повторы могли провалиться из-за того, что их проводили с небольшими изменениями в методологии по сравнению с исходным исследованием (правда, если результат настолько нестабилен, что исчезает при малейших изменениях в постановке эксперимента, то возникает вопрос, имеет ли он вообще какой-то смысл и применение)[89]. По этим причинам иногда трудно понять, является результат “воспроизводимым” или нет, на основании только одной-двух попыток его повторить. Кроме того, доля воспроизводимых исследований для разных областей психологии, похоже, отличается: например, в статье 2015 года, вышедшей в Science, когнитивная психология (изучение памяти, восприятия, языка и так далее) проявила себя лучше, чем социальная (к коей относятся всевозможные исследования прайминга, обсуждавшиеся выше)[90].

Однако в целом на психологию все это подействовало опустошительно. Дело было не только в том, что разоблачались такие легковесные, эффектные исследования, как посвященные праймингу или позам силы, – огромное количество куда более “серьезных” работ по психологии (стэнфордский тюремный эксперимент и многие другие) тоже оказалось поставлено под сомнение. И проблема была не в том, что откопали какое-то ненужное старье и наглядно показали, что оно никуда не годится, – как когда папа Стефан VI в 897 году эксгумировал труп одного из своих предшественников, папы Формоза, и отдал под суд (тот был признан виновным). Нет, на работы, воспроизвести которые не удалось, продолжали как ни в чем не бывало ссылаться как ученые, так и писатели: целые направления исследований и пользующиеся хорошим спросом научно-популярные книги строились на таком шатком фундаменте. Слово “кризис” кажется весьма точным описанием ситуации.

Мы можем попробовать утешиться тем, что в психологии как дисциплине есть нечто уникальное, что и вызвало ее кризис воспроизводимости. У психологов незавидная работа: они пытаются разобраться в крайне изменчивых и чрезвычайно сложных человеческих существах, со всеми их разными личностями, знаниями, опытом, настроениями и особенностями. Изучаемые психологами объекты, такие как мысли, эмоции, внимание, способности, восприятие, обычно неуловимы – их трудно, если вообще возможно, зафиксировать в лабораторном эксперименте. А в социальной психологии ученым приходится изучать, как все эти хитросплетенные люди друг с другом взаимодействуют. Не могла ли невероятная сложность задачи сделать открытия в психологии особенно ненадежными по сравнению с другими науками?

В этом аргументе есть кое-что справедливое: во многих исследованиях по психологии интересующее ученых явление едва затрагивается, тогда как другие, более “точные” науки, скажем физика, характеризуются лучше разработанными теориями и более точными и по-настоящему объективными измерениями. Однако нельзя сказать, что только в психологии есть проблемы с воспроизводимостью: хотя ни в какой другой области науки столь систематически и детально еще не изучалась доля успешно воспроизводящихся результатов, есть намеки на однотипные проблемы в огромном количестве разных направлений.

• Экономика: в исследовании 2016 года, повторяющем восемнадцать работ по микроэкономике (когда люди приходят в лабораторию и принимают участие в экспериментах, посвященных их экономическому поведению, – что не слишком отличается от исследований по психологии), доля воспроизводимости равнялась лишь 61 %[91].

• Нейронауки: в исследовании 2018 года обнаружилось, что стандартные работы по функциональной нейровизуализации, когда с помощью магнитно-резонансной томографии регистрируется активность мозга, пока человек выполняет какие-то задания (или просто лежит внутри МРТ-сканера), отличались лишь “незначительной воспроизводимостью”[92]. Еще мир функциональной нейровизуализации сотрясла статья, в которой вскрылось, что дефолтные настройки пакета программ, широко используемого для анализа данных визуализации, содержат статистическую ошибку. Это привело к громадному числу случайных нескорректированных ложноположительных результатов и скомпрометировало примерно 10 % всех статей, когда-либо опубликованных по этой теме[93].

• Эволюционная биология и экология: на целый ряд классических результатов, давно попавших в учебники и вызубриваемых поколениями студентов, посыпались критические обзоры после попыток их воспроизвести. Так, выяснилось, что заявления о знаменитом “синдроме одомашнивания”, когда лисицы в СССР, отбираемые по признаку дружелюбности, начинали приобретать внешний облик одомашненных видов (например, висячие уши и укороченные, широкие морды), были сильно преувеличены, причем большинство признаков “приручения” существовало еще до начала процесса селекции[94]. И многое из того, что, как мы думали, нам известно о половом отборе у птиц, было развенчано при получении более надежных данных. Скажем, в противоположность тому, что мы якобы знали, красная повязка на лапках у самцов зебровых амадин, похоже, не делает их сверхпривлекательными для самок; самцы воробьев с более крупным пятном черных перьев на горле (так называемым нагрудником), похоже, не доминируют в стае; а доказательства, что самок обыкновенных лазоревок больше привлекают определенные цвета оперения у самцов, неубедительны[95].

• Биология моря: в масштабном исследовании 2020 года, повторяющем другие работы, выяснилось, что закисление океана (как и изменение климата, это одно из последствий повышения уровня диоксида углерода в атмосфере) не влияет на поведение рыб[96]. Таким образом, не удалось воспроизвести несколько исследований предыдущего десятилетия, получивших широкую огласку, которые явно показывали, что в закисленной среде рыбы становятся дезориентированными и иногда плывут по направлению к химическим сигналам хищников, а не от них.

[74] На момент написания этой книги в феврале 2020 года общее количество просмотров на сайте TED составляло 56 миллионов, а на YouTube – еще 17,6 миллиона. Выступление исходно называлось “Язык тела формирует вашу личность”, но затем, когда грянул кризис воспроизводимости, оно было переименовано и стало называться “Язык тела может формировать вашу личность”. Cuddy A. Your Body Language May Shape Who You Are. TEDGlobal 2012. June 2012.
[75] Cuddy A. J. C. Presence: Bringing Your Boldest Self to Your Biggest Challenges. New York: Little, Brown and Company, 2015. Цитаты взяты с издательского сайта: www.littlebrown.com/titles/amy-cuddy/presence/9780316256575.
[76] Khaleeli H. A Body Language Lesson Gone Wrong: Why is George Osborne Standing like Beyoncé? The Guardian. 7 Oct. 2015.
[77] Ranehill E. et al. Assessing the Robustness of Power Posing: No Effect on Hormones and Risk Tolerance in a Large Sample of Men and Women. Psychological Science. 26, no. 5 (2015): 653–6. С тех пор дебаты по поводу поз силы только набирали обороты. Авторы обзора 2017 года заключили, что эффекты поз силы – это “предположения, на данный момент не имеющие эмпирических обоснований”. См. Simmons J. P., Simonsohn U. Power Posing: P-Curving the Evidence. Psychological Science. 28, no. 5 (2017): 687–93. Кадди парировала своим собственным обзором, где отмечался-таки общий эффект, хотя позже и было показано, что – наряду с другими проблемами подобных исследований – большинство результатов в статьях, на которые она ссылалась, объяснялись, вероятно, отрицательным эффектом ссутуливания, нежели чем положительным воздействием поз силы. См. Cuddy A. J. C. et al. P-Curving a More Comprehensive Body of Research on Postural Feedback Reveals Clear Evidential Value for Power-Posing Effects: Reply to Simmons and Simonsohn (2017). Psychological Science. 29, no. 4 (2018): 656–66. Про ссутуливание см. Credé M. A Negative Effect of a Contractive Pose is not Evidence for the Positive Effect of an Expansive Pose: Commentary on Cuddy, Schultz, and Fosse (2018). SSRN. 2018.
[78] Zimbardo P. The Lucifer Effect: How Good People Turn Evil. London: Rider, 2007. [Зимбардо Ф. Эффект Люцифера. Почему хорошие люди превращаются в злодеев. М.: АНФ, 2013.]
[79] Milgram S. Behavioral Study of Obedience. Journal of Abnormal and Social Psychology. 67, no. 4 (1963): 371–8. Эксперименты Милгрэма тоже подвергались справедливой критике. Чем сильнее участники верили, что действительно бьют “учеников” током, тем с меньшей вероятностью повышали разряд. Об этом см., например: Perry G. et al. Credibility and Incredulity in Milgram’s Obedience Experiments: A Reanalysis of an Unpublished Test. Social Psychology Quarterly. 83, no. 1 (2020): 88–106.
[80] Zimbardo P. Our inner heroes could stop another Abu Ghraib. The Guardian. 29 Feb. 2008.
[81] Fromm E. The Anatomy of Human Destructiveness. New York: Holt, Rinehart and Winston, 1975. [Фромм Э. Анатомия человеческой деструктивности. М.: АСТ, 2004.]
[82] Le Texier T. Debunking the Stanford Prison Experiment. American Psychologist. 74, no. 7 (2019): 823–39.
[83] Дебаты продолжаются, и Зимбардо ответил на критику. См., например: Zimbardo P. Philip Zimbardo’s Response to Recent Criticisms of the Stanford Prison Experiment. 23 June 2018. См. также ответ Ле Тексье на более позднюю версию заявления Зимбардо (на момент написания этой книги – еще не опубликованную): Le Texier T. The SPE Remains Debunked: A Reply to Zimbardo and Haney (2020). Preprint, PsyArXiv (24 Jan. 2020).
[84] Open Science Collaboration. Estimating the Reproducibility of Psychological Science. Science. 349, no. 6251 (2015): aac4716.
[85] Camerer C. F. et al. Evaluating the Replicability of Social Science Experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour. 2, no. 9 (2018): 637–44.
[86] Последнее число соответствует шести удачным попыткам воспроизвести шестнадцать исследований. Ebersole C. R. et al. Many Labs 3: Evaluating Participant Pool Quality across the Academic Semester via Replication. Journal of Experimental Social Psychology. 67 (2016): 68–82.
[87] Тут некоторые критики могут возразить, что я сам попал в вырытую другим яму. Я подчеркивал важность надежных результатов, однако, заявляя, что разразился кризис воспроизводимости, полагаюсь на попытки воспроизвести разные исследования, которые не являются репрезентативной выборкой из всей научной литературы. Вывод о том, что лишь “около половины” опубликованных результатов воспроизводятся, возможно, нельзя обобщать на всю науку. Такой аргумент был приведен в критической заметке к одному из исследований, посвященных повторению других работ: Gilbert D. T. et al. Comment on “Estimating the Reproducibility of Psychological Science”. Science. 351, no. 6277 (2016): 1037. Хотя я не согласен со многими приведенными там аргументами (некоторые причины скепсиса описаны здесь: Lakens D. The Statistical Conclusions in Gilbert et al (2016) Are Completely Invalid. The 20 % Statistician. 6 March 2016), замечание насчет репрезентативности справедливо. Мы все еще плохо понимаем, какая именно часть результатов по всем научным направлениям воспроизводима, даже в областях вроде психологии, где были предприняты эти масштабные попытки повторить прежние результаты, – правда может оказаться пригляднее, чем показывают те исследования, или же наоборот. Но сам факт, что мы этого не знаем, – а также то, что столь много громких, нашумевших открытий рассыпалось в прах при более внимательном рассмотрении, – является, я убежден, поводом для немалого беспокойства. Ответы на другие критические замечания, оспаривающие идею, что разразился кризис, см. тут: Pashler H., Harris C. R. Is the Replicability Crisis Overblown? Three Arguments Examined. Perspectives on Psychological Science. 7, no. 6 (2012): 531–6.
[88] Bird A. Understanding the Replication Crisis as a Base Rate Fallacy. British Journal for the Philosophy of Science. 13 Aug. 2018.
[89] Разумеется, авторы исходной работы (те, чьи результаты не воспроизвелись) зачастую заявляли, что изменения были на самом деле значительными и серьезно испортили эксперимент. Каждый случай следует разбирать отдельно, однако подобный аргумент наводит на мысль о некой предвзятости.
[90] Другая область, где все неплохо, – психология личности. Психолог Кристофер Сото провел масштабную работу по воспроизведению результатов исследований личности – корреляций личностных качеств, оцениваемых по опросникам, с такими показателями, как удовлетворенность жизнью и романтическими отношениями, религиозные и политические взгляды и карьерный успех. Доля успешно воспроизведенных результатов получилась 87 %, что весьма достойно по сравнению с другими областями, которые мы обсуждали. Soto C. J. How Replicable Are Links Between Personality Traits and Consequential Life Outcomes? The Life Outcomes of Personality Replication Project. Psychological Science. 30, no. 5 (2019): 711–27.
[91] Camerer C. F. et al. Evaluating Replicability of Laboratory Experiments in Economics. Science. 351, no. 6280 (2016): 1433–6.
[92] Turner B. O. et al. Small Sample Sizes Reduce the Replicability of Task-Based fMRI Studies. Communications Biology. 1, no. 1 (2018): 62.
[93] Eklund A. et al. Cluster Failure: Why fMRI Inferences for Spatial Extent Have Inflated False-Positive Rates. Proceedings of the National Academy of Sciences. 113, no. 28 (2016): 7900–5; Eklund A. et al. Cluster Failure Revisited: Impact of First Level Design and Physiological Noise on Cluster False Positive Rates. Human Brain Mapping. 40, no. 7 (2019): 2017–32.
[94] Lord K. A. et al. The History of Farm Foxes Undermines the Animal Domestication Syndrome. Trends in Ecology & Evolution. 35, no. 2 (2020): 125–36.
[95] Зебровые амадины: Wang D. et al. Irreproducible Text-Book “Knowledge”: The Effects of Color Bands on Zebra Finch Fitness. Evolution. 72, no. 4 (2018): 961–76. См. также Law Y.-H. Replication Failures Highlight Biases in Ecology and Evolution Science. The Scientist. 31 July 2018. Воробьи: Sánchez-Tójar A. et al. Meta-analysis challenges a textbook example of status signalling and demonstrates publication bias. eLife. 7 (2008): e37385. Обыкновенные лазоревки: Parker T. H. What Do We Really Know about the Signalling Role of Plumage Colour in Blue Tits? A Case Study of Impediments to Progress in Evolutionary Biology. Biological Reviews. 88, no. 3 (2013): 511–36.
[96] Clark T. D. et al. Ocean Acidification Does Not Impair the Behaviour of Coral Reef Fishes. Nature. 577, no. 7790 (2020): 370–5. См. также Enserink M. Analysis Challenges Slew of Studies Claiming Ocean Acidification Alters Fish Behavior. Science. 8 Jan. 2020. Как отмечается в этой второй статье, из того, что поведение рыб, похоже, не меняется, не следует, что нам нужно перестать беспокоиться о закислении океана, которое вызывает много других пагубных явлений. Позднее авторов исходных статей (двадцати двух штук) о закислении океана и поведении рыб обвинили в научном мошенничестве. См. Enserink M. Does Ocean Acidification Alter Fish Behavior? Fraud Allegations Create a Sea of Doubt. Science. 6 May 2021.