Р. Карри: разворот на 180 градусов в астрологическом тесте Карлсона? Часть II

Дорогие читатели, вашему вниманию предлагается перевод второй части статьи Роберта Карри (род. 24.09.1955 г.), британского астролога, лауреата нескольких астрологических наград. Данная статья была опубликована в 2011 году в журнале «Correlation». Перевод выполнен А. Шлыковым. Ознакомиться с первой частью перевода вы можете здесь. В отрывке ниже говорится о существенных недочетах проведенного эксперимента, которые касаются дизайна эксперимента Карлсона, трудностей, с которыми столкнулись его участники, ограничений использовавшихся тестовых опросников, необоснованно завышенных требований к точности астрологов, а также рассказывается об ошибках или подтасовках в анализе результатов эксперимента.

Изъяны дизайна исследования и его выполнения, ставящие астрологию в невыгодное положение

Очевидная ошибка в дизайне теста Карлсона заключалась в том, что он отклонил Тест #2 из-за того, что данные «не были собраны под надлежащим контролем». Испытуемым было предложено оценить интерпретацию их собственной натальной карты по шкале от 1 до 10. Однако Карлсон заметил, что из «нескольких первых конвертов с данными» «первый выбор испытуемых из почти всех подразделов был также оценен как первый выбор». Это было прискорбным упущением. Учитывая успех астрологов при оценке CPI, эти данные, возможно, обошли некоторые проблемы, присущие предметной группе (обрисовано в общих чертах ниже). Было бы полезным, если бы Карлсон показал необработанные результаты, дабы мы могли, по крайней мере, исключить любое предположение по выборочной отчетности и посмотреть, что еще можно из этих данных извлечь.

Другая неудача произошла, когда испытуемые в тесте #5 не смогли оценить свой собственный CPI на уровне, превышающем случайность. В результате Карлсон исключил из итогов тест #1, в котором участники должны были проранжировать свою собственную карту рождения, и пришел к выводу, что самоотбор был «плохим тестом астрологии» (Carlson 1985).

Карлсон навязал в своем эксперименте аномально и неправомерно высокие требования к уровню доказательств. В общественных науках принято, что значения P-value (вероятность) на уровне 0.05 и ниже указывают на статистическую значимость1. В этом конкретном эксперименте, дабы продемонстрировать очень высокие P-значения, потребовались бы гораздо большие размеры выборки. Тем не менее, Карлсон потребовал P-значений на уровне 0,006 (Ertel 2009:135) (2,5 стандартных отклонения), что больше подходит для эксперимента в физике, нежели в психологии. В своей статье для «Nature» Карлсон признал, что подобный уровень был необычайно высок, однако его комментарии были отредактированы перед публикацией — возможно, чтобы представить его выводы более достоверными (Vidmar 2008).

Затруднения, с которыми столкнулись астрологи при выполнении своих заданий:

1. Является ли данный тест реалистичным и добросовестным?

Астрология — это не игра в угадайку. Этот тест идентификации (на манер «угадай мой знак» или «найди карту Королевы») — не то, что астрологи обычно делают для своих клиентов. Все участники эксперимента, включая астрологов, как кажется, предполагали, что персональные данные человека должны выделяться из множества подобных. Но смогут ли студенты определить результаты своего экзамена или медицинский диагноз без указания своего имени наверху? Слепой отбор оказался проблематичным для людей, которым нужно было выбрать свой собственный психологический профиль (CPI) (тест #5) или карту рождения (тест #1). Астрологи, однако, были успешны на гораздо более высоком уровне в сопоставлении натальных карт с соответствующим психологическим профилем (тесты #3 и #4).

2. Испытуемые: слишком неопытные, слишком однородные и слишком незаинтересованные

Астрологов попросили сопоставить карту рождения с одним из трех профилей CPI. Тем не менее, участники эксперимента имели слишком много общего друг с другом, что затрудняло легкую идентификацию и разграничение. Большинство испытуемых (70%), как и Карлсон, являлись студентами того же университета. Столь высокий уровень однородности затрудняет проведение различий между людьми. Кроме того, испытуемые не были предрасположены к самоисследованию2 и их уровень самопознания был невысоким. Средний возраст в 28 лет3 сообщает нам о том, что большинство из них еще не испытывало способствующего становлению возвращения Сатурна (29-30 лет) и были в меньшей степени способны распознать свой будущий потенциал и внутреннюю природу в соответствии с астрологической теорией и общепринятыми взглядами. Большинство их них, например, еще не сталкивалось в жизни с таким формирующим характер опытом, как карьера, брак, дети и владение недвижимостью. Они находились, как выразился Видмар, «под сильным влиянием социокультурных факторов, таких, как родители…» (Vidmar 2008) Результаты повторного тестирования с применением CPI на других испытуемых показали, что после 25 лет половина людей изменила представление о себе более чем на 40%4. Наконец, участвующие в эксперименте Карлсона не проявляли энтузиазма в попытках заполнить психологический опросник и, возможно, были склонны к предвзятости в ответах. Эти недостатки в тестах были неблагоприятными как для астрологии, так и для психологии.

3. Недостатки Калифорнийских психологических опросников

Хотя Калифорнийский психологический опросник (CPI) был приемлем для консультирующих астрологов, он был слишком запутан и ограничен для калибровки. CPI являлся скорее мерилом текущего внешнего поведения5, нежели внутренних мотиваций, определением которых астрологи и занимаются по натальной карте. В конце концов, зачем идти к астрологу, если карта — не более чем анализ, основанный на ваших собственных ответах? Другой изъян заключался в том, что «CPI содержит шкалы, которые делают различие между полами»: Карлсону пришлось скрывать пол испытуемых от астрологов, чтобы избежать подсказок, помогающих идентификации.

Калифорнийский психологический опросник (CPI) потерпел неудачу?

Запутанность CPI подтвердилась, когда испытуемые не смогли идентифицировать свой собственный CPI (т.е. анализ личностной анкеты, заполненной ими самими) на уровне, превышающем случайность. Хотя такой результат вынудил Карлсона отказаться от принципа самостоятельного отбора испытуемыми (тест #1), астрологи показатели себя лучше подготовленными, более осведомленными и более мотивированными к чтению сложных таблиц CPI, нежели испытуемые. Таким образом, CPI не был идеальным инструментом, но оказался в ограниченной степени работающим в правильных руках.

Предыстория эксперимента Карлсона и многие из этих критических замечаний были задокументированы и опубликованы профессором Джозефом Видмаром и опубликованы в журнале «Correlation» (Volume 26(1)) (Vidmar 2008). Его озабоченность относительно дуги CPI, подкрепленная данными повторного тестирования CPI, а также однородность группы поставили перед астрологами дополнительные проблемы. Я не разделяю мнения Видмара, что эксперимент провалился в основном из-за многочисленных дефектов в дизайне, процедурных ошибок и неудовлетворительного представления данных — и все это усугубляется характерной предвзятостью. Видмар полагает, что эксперимент Карлсона является уникальным случаем коллективной научной недобросовестности со стороны группы, претендующей на то, что она «говорит от лица науки» при участии журнала «Nature». Я согласен, что имели место недостатки: отбор участников, ошибки исполнения и ограничения теста CPI. Однако данные недостатки не являлись фатальными, но были процедурами и методами, которые возможно скорректировать в будущих экспериментах подобного рода. По сути, дизайн эксперимента имел и свои достоинства, если учесть возможные улучшения.

Итак, хотя часть эксперимента пришлось отклонить, тесты #3 и #4 по-прежнему оставались в силе, что поставило перед астрологами громадную задачу сопоставления CPI с картами рождения.

Сьюберт Эртель и Ганс Айзенк — критики выводов Шона Карлсона.

Выводы Карлсона

Выводы Карлсона основывались на результатах тестов, которые он считал жизнеспособными, т.е. теста #3, где астрологи сравнивали опросники CPI с натальными картами, и теста #4, где астрологи оценивали совпадения с картами рождения по 10-балльной шкале. В его заключительном резюме говорилось, что «астрологи выступили куда хуже, чем предполагали» и «не смогли отобрать правильные CPI в качестве первого и второго выбора на значимом уровне». Он не нашел «убедительных доказательств того, что астрологи склонны оценивать корректные CPI выше некорректных». Исходя из этого, он заключил: «Теперь мы можем привести удивительно веские аргументы против натальной астрологии, практикуемой авторитетными астрологами» (Carlson 1985:425).

Но «такое заключение не следует из данных» — сообщает профессор Ганс Айзенк6 (Eysenck 1986). После завершения эксперимента ряд авторитетных источников, включая профессора Ганса Айзенка из Лондонского университета (1986)7, утверждали, что вывод Карлсона был ошибочным. А к концу 2009 года появились новые доказательства того, что может быть более уместным заключение, противоположное выводам Карлсона.

Повторный анализ данных Эртелем показывает отчетливую тенденцию в пользу астрологии

Доскональный анализ данных, выполненный в 2009 году психологом и статистическим экспертом, профессором Сьюбертом Эртелем из Гёттингенского университета в Германии (Ertel 2009), показал, что результаты актуальных тестов (#3 и #4) свидетельствуют: астрологи достигли статистически значимого уровня, несмотря на те многочисленные трудности, с которыми столкнулись.

Ранжированный тест #3: астрологи сопоставляли данные CPI и натальных карт на «минимально значимом уровне»

Метод Карлсона, предполагающий анализ первого и третьего значения, только и по отдельности, упускает общую модель эксперимента, в соответствии с которым астрологов просили совершить первый и второй выбор. «Затем астрологов попросили выбрать два CPI, первый и второй выбор, и никакой равнозначности не допускалось» (Carlson 1985:420). Редукционистский8 подход Карлсона противоречит статистическим стандартам, предусматривающим выбор9. Его запутывающее и нетрадиционное использование статистики пропускает общие результаты, когда правильный гороскоп являлся наиболее частым вторым выбором, а последний (правильный — А.Ш.) выбор был самым малочисленным. Из-за этого недосмотра его метод упустил из виду характерную проблему выбора случайных CPI из группы, где существует небольшая разнородность. По крайней мере один из двух случайных CPI будет довольно похож на подлинный, что приведет к несправедливо ложному совпадению с картой рождения. Каждый раз, когда выбор не мог был четко разграничен, Карлсон ставил условие, что никакая равнозначность не допускается, и поэтому астрологу (и испытуемым) часто приходилось делать произвольный выбор. Метод ранжирования Карлсона принес бы куда более «значимые» результаты, если бы астрологов (и испытуемых) попросили сравнивать непохожие CPI. В любом случае, независимые эксперты должны были бы удалить схожие CPI, чтобы каждое решение могло основываться только на астрологии.

«Мне дали несколько из этих графиков (профилей CPI), чтобы сопоставить их между собой, и я сразу заметила, сколь части эти три профиля были похожи», отмечала Тереза Гамильтон, астролог, который первоначально был готов сотрудничать, но позже отказался (Hamilton January 1986).

Таблица, показывающая рейтинги астрологов (от 1 до 10) и соотношения между подлинными и ложными профилями CPI при их сравнении с аутентичными картами рождения.

В тесте #1, который Карлсон отверг как недобросоветсный, 73,5% из 83 испытуемых определили свой правильный гороскоп как их первый или второй выбор (вероятность случайности=66.6%). В тесте #3 астрологи показали немного большую точность при отборе правильного гороскопа в качестве первого или второго выбора (74.8% при 115 испытуемых, вероятность случайности=66.6%). Анализируя общий эффект использования стандартной формулы для формата с тремя вариантами выбора, Эртель показал, что астрологи сопоставили CPI с натальными картами с минимально статистически значимым значением P-value, равным 0,054 (размер эффекта = 0,15). Однако более значительные результаты появились, когда астрологи оценили карты в тесте #4 (Ertel 2009).

«Таким образом, астрологи выбрали правильный профиль CPI как первый или второй выбор чаще, чем ожидается от случайности, на незначительно значимом уровне» (Ertel 2009, p. 129).

Оценочный тест #4: астрологи оценили соответствие CPI / карта на статистически значимом уровне

В тесте #4 требовалось, чтобы астрологи оценили 308 профилей CPI, не зная, какие из них являлись 100 подлинными и 208 ложными совпадениями с картами рождения. С помощью этого теста уверенность каждого астролога в своих результатах может быть зарегистрирована гораздо отчетливее и без неопределенности, вызванной наличием схожих профилей, поскольку равнозначность не разрешалась.

«Корреляция значительна. Этот результат дает основание принять во внимание вероятность того, что астрологи смогли, до известной степени, успешно сопоставить карты рождения с профилями CPI». Эртель ссылается на 10-балльную шкалу оценки астрологов (Ertel 2009, p. 131).

Продолжение следует.


1 (Прим. автора) P-value является мерой надежности результата. Это показатель вероятности наблюдаемой разницы в результатах, если бы сравниваемые выборки были случайными. Так, P-значение на уровне 0,5 или 50% сообщает, что предполагаемая зависимость — не более чем случайность. P-значение на уровне 0,05 означает, что существует вероятность порядка 5% (или 1/20), что наблюдаемый результат является случайностью. P-значения на уровне 0,05 и менее обычно рассматриваются как статистически значимые результаты в социальных науках, указывающие, что в проведенном эксперименте велика вероятность реальной корреляции (Thisted 1998).

2 (Прим. автора) Испытуемые не были предрасположены к астрологии, в отличие от типичного клиента, который мог бы проконсультироваться у астролога. Чтобы избежать предвзятости, Карлсон исключил тех, кто категорически не доверяет астрологии и тех, кому ранее доводилось составлять карту рождения (Carlson 1985 p.421). Испытуемые были менее мотивированы и потенциально подвержены предвзятости: согласно Эртелю, имеются две возможные причины, из-за которых подопытные не были так хороши, как астрологи, при сопоставлении своих карт или заполнении CPI: (Ertel 2009)

а. В то время как астрологи приложили немало усилий, поскольку «их мировоззрение было поставлено на карту», испытуемые мотивированы не были. Это видно по тому факту, что «половина их данных (оценок) были настолько бедны, что они даже не смогли их проанализировать».

b. Испытуемые, возможно, были склонны избегать корректной интерпретации карт (или их CPI), поскольку отрицали те черты характера, что могли посчитать непривлекательными.

Астрологи оказались более информированными: согласно Видмару, «астрологам предоставили 28-страничный «Конспект интерпретаций», чтобы помочь с интерпретацией CPI, а студентам (sic) дали только двухстраничный «синопсис» или «резюме» того, что означают отдельные шкалы (Vidmar 2008).

3 (Прим. автора) В статье Карлсона в «Nature» утверждается, что 70% являлись студентами колледжа, а около половины были выпускниками. Никаких других демографических данных дано не было, хотя в 1986 году Карлсон в ответ на вопросы заявлял, что средний возраст испытуемых составляет 28 лет (Carlson 1986).

4 (Прим. автора) По данным CPP, издателям CPI: «Корреляция тест-ретест для учащихся старших классов в течение одного года колеблются от значения 0,52 до 0,73 с медианой в 0,66. Корреляция тест-ретест для взрослых в течение десятилетнего интервала колеблется от 0,49 до 0,85 с медианой на уровне 0,77».

«Надежность CPI была оценена с точки зрения его внутренней согласованности, исходя из… повторного тестирования (медиана: 1 год = 0,68, 5 лет = 0,56, 25 лет = 0,58)». (Info Refuge 2010) Чтобы подчеркнуть момент эволюции личности, укажем, что повторный тест CPI спустя 25 лет показывает медиану на уровне 0,58. Другими словами, спустя 25 лет у половины испытуемых изменилось восприятие себя на 42%, в соответствии с системой измерения CPI. Поскольку самопознание имеет тенденцию улучшаться с возрастом, мы можем предполагать, что эта корректировка должна в большей степени отражать их истинную сущность.

5 (Прим. автора) Харрисон Гоф, автор CPI, заявляет: «Каждая шкала предназначена для прогнозирования того, что человек будет говорить или делать в определенных условиях, а также для выявления лиц, которые будут описаны характерным образом теми, кто их хорошо знает или кто наблюдают за его поведением в определенных контекстах. Шкалы сгруппированы для удобства в четыре широкие категории, объединяя те, что несут схожий смысл. Основная логика здесь интерпретационная, а не факторная, то есть эти четыре категории не обязательно составляют психометрические сущности» (Gough 1987).

6 Ганс Юрген Айзенк (1916-1997) — немецко-британский учёный-психолог, один из лидеров биологического направления в психологии, создатель факторной теории личности, автор популярного теста интеллекта. В молодости увлекался астрологией, но с годами разочаровался в ней.

7 (Прим. автора) Айзенк (род. 4 марта 1916 — ум. 1997) был профессором психологии в Институте психиатрии, автором около 80 книг и на момент своей смерти являлся живым психологом, наиболее часто цитируемым в научных журналах (Haggbloom 2002). Айзенк был экспертом в вопросах оценки личности и являлся одним из немногих психологов, исследовавших область астрологии.

8 Синоним слова упрощение. В философии редукционизм — это методологическая установка, которая заключается в сведении сложного к простому, целого к свойствам частей и частей к специфике целого.

9 (Прим. автора) Ertel (2009) с. 128: «Он (Карлсон) должен был использовать парное сравнение, самый справедливый из существующих форматов теста, на котором основывается «закон сравнительного суждения» Тёрстоуна» (Thurstone, 1927).

Источник: Currey R. U-turn in Carlson’s astrology test? // Correlation 27(2), July 2011. — P. 7-25.

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.