Ложная корреляция: почему связь не значит причину
Корреляция не значит причинно-следственная связь: разбираем конфаундеры, забавные ложные связи и как осторожно написать вывод о связи в дипломе. С примерами и FAQ.
Вы посчитали корреляцию, получили r = 0,82 и p < 0,01 — и рука сама тянется написать «фактор A приводит к росту B». Остановитесь на секунду.
Сильная корреляция говорит лишь о том, что два показателя меняются согласованно. Почему они так меняются — она не объясняет. И на этом месте чаще всего ломаются выводы в дипломах.
В двух словах
Корреляция не значит причинно-следственная связь. Коэффициент корреляции (например, Пирсона) измеряет только то, насколько дружно две переменные растут или падают вместе. Кто на кого влияет — и влияет ли вообще — он не показывает.
За «красивой» связью может стоять случайность, обратное направление влияния или скрытая третья переменная. Поэтому в выводах диплома пишут «связан с», «сопряжён с», а не «вызывает» — если не было эксперимента. Посчитать сам коэффициент можно в калькуляторе корреляции Пирсона, а разницу между корреляцией и предсказанием разбираем в статье «Корреляция или регрессия».
Что вообще измеряет корреляция
Коэффициент корреляции r — это число от −1 до +1. Оно отвечает на один вопрос: когда одна величина растёт, вторая чаще растёт (r > 0), падает (r < 0) или ведёт себя независимо (r ≈ 0)?
И всё. В формуле нет ни времени, ни «причины», ни «следствия» — только то, как два столбца чисел отклоняются от своих средних в одну сторону или в разные.
Корреляция — это утверждение о совместном изменении двух чисел, а не о механизме. Из «меняются вместе» логически не следует «одно вызывает другое». Это не придирка, а математический факт: r симметричен — corr(A, B) = corr(B, A), он даже не различает, кто на кого «влияет».
Три причины, почему связь есть, а причинности нет
Когда вы видите устойчивую корреляцию, у неё может быть как минимум четыре объяснения — и лишь одно из них «A вызывает B».
1. Обратное направление. Может быть, не A влияет на B, а B на A. Классика: «чем тревожнее студент, тем хуже оценки». А может, наоборот — плохие оценки повышают тревожность. Корреляция одинакова в обе стороны и выбрать направление не помогает.
2. Скрытая третья переменная (конфаундер). Есть фактор C, который тянет за собой и A, и B одновременно. Сами A и B напрямую не связаны — их «роднит» общий C. Это самая частая и самая коварная причина ложных выводов, поэтому разберём её отдельно ниже.
3. Случайное совпадение. Если перебрать достаточно показателей, какие-то «скоррелируют» просто по воле случая. Чем больше переменных вы гоняете через корреляции, тем выше шанс наткнуться на красивую, но пустую связь.
Четвёртый вариант — что A действительно влияет на B — тоже возможен. Но корреляция сама по себе не позволяет отличить его от трёх остальных. Чтобы доказать причинность, нужен эксперимент с контролем условий, а не наблюдение.
Конфаундер: главный обманщик
Конфаундер (confounder, скрытая переменная) — это третий фактор, который порождает связь между A и B, хотя прямой связи между ними нет.
Покажем схему: вы видите стрелку A → B, а на самом деле работает C, который одновременно тянет и A, и B.
Пример из спорта. Вы замеряете у школьников рост (A) и результат в прыжке в длину (B), получаете заметную положительную корреляцию: «выше ребёнок — дальше прыгает». Причина? Скрытая переменная C — возраст. Старшие дети и выше, и сильнее. Внутри одного возраста связь роста с прыжком может исчезнуть совсем.
Пример из психологии. Связь «больше времени в соцсетях → выше тревожность». Конфаундером может быть исходный уровень стресса: тревожные люди и зависают в телефоне, и набирают высокие баллы по тревожности. Соцсети тут — не причина, а спутник.
Если подозреваете конфаундер C, его влияние можно математически «вычесть» с помощью частной (парциальной) корреляции: она показывает связь A и B при фиксированном C. Если после этого r падает почти до нуля — связь была ложной, её держал именно конфаундер.
Забавные ложные связи (чтобы запомнить навсегда)
Лучший способ прочувствовать «корреляция ≠ причинность» — посмотреть на абсурдные, но реальные совпадения чисел.
Таблица 1 — Примеры сильных корреляций без всякой причинной связи
| Что с чем «связано» | r (примерно) | Что на самом деле |
|---|---|---|
| Продажи мороженого и число утоплений | +0,9 | общий фактор — жара (летом растёт и то, и другое) |
| Число пиратов в мире и средняя температура планеты | −0,95 | просто два независимых тренда во времени |
| Потребление сыра и смерти от запутывания в простынях | +0,9 | случайное совпадение трендов |
| Размер обуви ребёнка и грамотность письма | +0,8 | конфаундер — возраст |
После таблицы вывод напрашивается сам: высокий r — это ещё не доказательство. Мороженое не топит людей, а пираты не охлаждают планету. За каждой «связью» либо общий скрытый фактор (жара, возраст), либо чистое совпадение.
Особенно легко поймать ложную корреляцию на данных во времени: два показателя, которые годами растут (или падают) сами по себе, почти всегда дадут высокий r, даже если они никак не связаны. Это называют «ложной регрессией по времени».
Когда о причинности всё-таки можно говорить
Корреляция становится аргументом в пользу причинности только вместе с другими условиями. Минимальный набор:
- Эксперимент, а не наблюдение. Вы сами меняете A (например, вводите программу тренировок) и сравниваете с контрольной группой. Тогда направление «A → B» обосновано.
- Время. Причина должна предшествовать следствию: A замерили до изменения B.
- Контроль конфаундеров. Группы выровнены по полу, возрасту, исходному уровню — иначе разницу объяснит C, а не ваше воздействие.
- Правдоподобный механизм. Есть теория, почему A могло бы влиять на B.
В обычном корреляционном дипломе (опросили, замерили, посчитали r) выполняется обычно только последний пункт. Поэтому честный вывод там — про связь, а не про причину.
Что писать в дипломе
Главное правило: глаголы причинности («вызывает», «приводит к», «обусловливает», «влияет») приберегите для эксперимента. Для корреляции — нейтральные формулировки связи.
Так — можно (корреляционное исследование):
- «Между уровнем тревожности и успеваемостью выявлена обратная связь средней силы (r = −0,46; p < 0,05)».
- «Показатели A и B статистически значимо сопряжены (r = 0,52; p < 0,01)».
- «Чем выше балл по шкале A, тем, как правило, ниже показатель B».
Так — нельзя (без эксперимента):
- «Тревожность снижает успеваемость» — это причинность, её вы не доказали.
- «Рост A приводит к росту B».
Так — аккуратная оговорка про конфаундер:
- «Полученная связь не позволяет судить о её причинном характере: возможно влияние неучтённых факторов (например, возраста или исходного уровня мотивации)».
Шаблон безопасного вывода: «выявлена статистически значимая [прямая/обратная] связь [силы] между A и B (r = …; p = …); характер связи требует дополнительной проверки, так как корреляционный дизайн не позволяет установить причинно-следственные отношения».
Частые ошибки
- Писать «влияет» после обычной корреляции. Самая частая ошибка. Без эксперимента — только «связан с».
- Игнорировать конфаундеры. Не подумали про возраст/пол/стаж — и приписали связь не тому фактору.
- Считать высокий r доказательством. r = 0,9 без контроля условий доказывает только согласованность чисел.
- Гонять десятки корреляций и радоваться значимым. При множестве проверок часть «значимых» связей — случайность.
- Путать направление. «A связано с B» не говорит, кто первичен. Не додумывайте стрелку.
- Делать причинный вывод по двум точкам во времени. Совпадение трендов — не причинность.
Частые вопросы
Если r большой и p < 0,01 — это точно настоящая связь?
Малое p говорит лишь, что связь вряд ли случайна в ваших данных. Оно ничего не говорит о причинности и не отменяет конфаундеров. Статистически значимая связь вполне может быть ложной — её просто держит скрытая третья переменная.
Как проверить, что связь не ложная?
Идеально — поставить эксперимент с контрольной группой. В рамках наблюдения — выровнять группы по возможным конфаундерам и пересчитать связь через частную корреляцию, зафиксировав подозрительный фактор C. Если связь после этого исчезает, она была ложной.
Можно ли вообще делать выводы по корреляции в дипломе?
Да, и это нормальный, законный дизайн. Просто формулируйте выводы на языке связи: «сопряжено», «связано», «чем больше A, тем меньше B». Корреляция отлично описывает структуру связей — она лишь не доказывает, кто кого порождает.
Чем тут поможет регрессия?
Регрессия позволяет предсказывать B по A и учитывать сразу несколько факторов (множественная регрессия), частично контролируя конфаундеры. Но и она на наблюдательных данных причинность не доказывает — только улучшает модель связи. Подробнее — в статье «Корреляция или регрессия».
Что делать, если научник требует написать «влияет»?
Уточните дизайн. Если было воздействие и контрольная группа — «влияет» уместно. Если просто замеры и корреляция — предложите формулировку «связано с» и оговорку про неучтённые факторы: это и корректнее, и защищается легче.
Короткий алгоритм
- Посчитали корреляцию — посмотрите на знак, силу и p в калькуляторе Пирсона.
- Спросите себя: нет ли обратного направления? Не первично ли B?
- Подумайте про конфаундер C (возраст, пол, стаж, исходный уровень) — что могло тянуть и A, и B?
- При подозрении — посчитайте частную корреляцию с фиксированным C.
- В выводах пишите про связь («сопряжено», «связано»), а «влияет/вызывает» — только если был эксперимент.
Запомните одну фразу — и половина ошибок исчезнет: «корреляция не значит причинно-следственную связь». Повесьте её над выводами своей главы.
Что ещё почитать
- Корреляция или регрессия: что выбрать — когда описывать связь, а когда предсказывать.
- Частная (парциальная) корреляция — как «вычесть» влияние конфаундера C.
- Калькулятор корреляции Пирсона — посчитать r, p и силу связи онлайн.
- База методов — подобрать подходящий критерий под ваши данные.
Сомневаетесь, не ложная ли ваша связь и как корректно сформулировать вывод — посчитайте коэффициент в калькуляторе, а за разбором под ключ загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.