StatBlank
Основы18 июня 2026·9 мин чтения

Ложная корреляция: почему связь не значит причину

Корреляция не значит причинно-следственная связь: разбираем конфаундеры, забавные ложные связи и как осторожно написать вывод о связи в дипломе. С примерами и FAQ.

Вы посчитали корреляцию, получили r = 0,82 и p < 0,01 — и рука сама тянется написать «фактор A приводит к росту B». Остановитесь на секунду.

Сильная корреляция говорит лишь о том, что два показателя меняются согласованно. Почему они так меняются — она не объясняет. И на этом месте чаще всего ломаются выводы в дипломах.

В двух словах

Корреляция не значит причинно-следственная связь. Коэффициент корреляции (например, Пирсона) измеряет только то, насколько дружно две переменные растут или падают вместе. Кто на кого влияет — и влияет ли вообще — он не показывает.

За «красивой» связью может стоять случайность, обратное направление влияния или скрытая третья переменная. Поэтому в выводах диплома пишут «связан с», «сопряжён с», а не «вызывает» — если не было эксперимента. Посчитать сам коэффициент можно в калькуляторе корреляции Пирсона, а разницу между корреляцией и предсказанием разбираем в статье «Корреляция или регрессия».

Что вообще измеряет корреляция

Коэффициент корреляции r — это число от −1 до +1. Оно отвечает на один вопрос: когда одна величина растёт, вторая чаще растёт (r > 0), падает (r < 0) или ведёт себя независимо (r ≈ 0)?

И всё. В формуле нет ни времени, ни «причины», ни «следствия» — только то, как два столбца чисел отклоняются от своих средних в одну сторону или в разные.

Важно

Корреляция — это утверждение о совместном изменении двух чисел, а не о механизме. Из «меняются вместе» логически не следует «одно вызывает другое». Это не придирка, а математический факт: r симметричен — corr(A, B) = corr(B, A), он даже не различает, кто на кого «влияет».

Три причины, почему связь есть, а причинности нет

Когда вы видите устойчивую корреляцию, у неё может быть как минимум четыре объяснения — и лишь одно из них «A вызывает B».

1. Обратное направление. Может быть, не A влияет на B, а B на A. Классика: «чем тревожнее студент, тем хуже оценки». А может, наоборот — плохие оценки повышают тревожность. Корреляция одинакова в обе стороны и выбрать направление не помогает.

2. Скрытая третья переменная (конфаундер). Есть фактор C, который тянет за собой и A, и B одновременно. Сами A и B напрямую не связаны — их «роднит» общий C. Это самая частая и самая коварная причина ложных выводов, поэтому разберём её отдельно ниже.

3. Случайное совпадение. Если перебрать достаточно показателей, какие-то «скоррелируют» просто по воле случая. Чем больше переменных вы гоняете через корреляции, тем выше шанс наткнуться на красивую, но пустую связь.

Заметка

Четвёртый вариант — что A действительно влияет на B — тоже возможен. Но корреляция сама по себе не позволяет отличить его от трёх остальных. Чтобы доказать причинность, нужен эксперимент с контролем условий, а не наблюдение.

Конфаундер: главный обманщик

Конфаундер (confounder, скрытая переменная) — это третий фактор, который порождает связь между A и B, хотя прямой связи между ними нет.

Покажем схему: вы видите стрелку A → B, а на самом деле работает C, который одновременно тянет и A, и B.

A B C видимая связь A–B реальная реальная
Рисунок 1 — Конфаундер C создаёт видимую корреляцию между A и B, хотя прямой связи нет

Пример из спорта. Вы замеряете у школьников рост (A) и результат в прыжке в длину (B), получаете заметную положительную корреляцию: «выше ребёнок — дальше прыгает». Причина? Скрытая переменная C — возраст. Старшие дети и выше, и сильнее. Внутри одного возраста связь роста с прыжком может исчезнуть совсем.

Пример из психологии. Связь «больше времени в соцсетях → выше тревожность». Конфаундером может быть исходный уровень стресса: тревожные люди и зависают в телефоне, и набирают высокие баллы по тревожности. Соцсети тут — не причина, а спутник.

Совет

Если подозреваете конфаундер C, его влияние можно математически «вычесть» с помощью частной (парциальной) корреляции: она показывает связь A и B при фиксированном C. Если после этого r падает почти до нуля — связь была ложной, её держал именно конфаундер.

Забавные ложные связи (чтобы запомнить навсегда)

Лучший способ прочувствовать «корреляция ≠ причинность» — посмотреть на абсурдные, но реальные совпадения чисел.

Таблица 1 — Примеры сильных корреляций без всякой причинной связи

Что с чем «связано» r (примерно) Что на самом деле
Продажи мороженого и число утоплений +0,9 общий фактор — жара (летом растёт и то, и другое)
Число пиратов в мире и средняя температура планеты −0,95 просто два независимых тренда во времени
Потребление сыра и смерти от запутывания в простынях +0,9 случайное совпадение трендов
Размер обуви ребёнка и грамотность письма +0,8 конфаундер — возраст

После таблицы вывод напрашивается сам: высокий r — это ещё не доказательство. Мороженое не топит людей, а пираты не охлаждают планету. За каждой «связью» либо общий скрытый фактор (жара, возраст), либо чистое совпадение.

Осторожно

Особенно легко поймать ложную корреляцию на данных во времени: два показателя, которые годами растут (или падают) сами по себе, почти всегда дадут высокий r, даже если они никак не связаны. Это называют «ложной регрессией по времени».

Когда о причинности всё-таки можно говорить

Корреляция становится аргументом в пользу причинности только вместе с другими условиями. Минимальный набор:

  • Эксперимент, а не наблюдение. Вы сами меняете A (например, вводите программу тренировок) и сравниваете с контрольной группой. Тогда направление «A → B» обосновано.
  • Время. Причина должна предшествовать следствию: A замерили до изменения B.
  • Контроль конфаундеров. Группы выровнены по полу, возрасту, исходному уровню — иначе разницу объяснит C, а не ваше воздействие.
  • Правдоподобный механизм. Есть теория, почему A могло бы влиять на B.

В обычном корреляционном дипломе (опросили, замерили, посчитали r) выполняется обычно только последний пункт. Поэтому честный вывод там — про связь, а не про причину.

Что писать в дипломе

Главное правило: глаголы причинности («вызывает», «приводит к», «обусловливает», «влияет») приберегите для эксперимента. Для корреляции — нейтральные формулировки связи.

Так — можно (корреляционное исследование):

  • «Между уровнем тревожности и успеваемостью выявлена обратная связь средней силы (r = −0,46; p < 0,05)».
  • «Показатели A и B статистически значимо сопряжены (r = 0,52; p < 0,01)».
  • «Чем выше балл по шкале A, тем, как правило, ниже показатель B».

Так — нельзя (без эксперимента):

  • «Тревожность снижает успеваемость» — это причинность, её вы не доказали.
  • «Рост A приводит к росту B».

Так — аккуратная оговорка про конфаундер:

  • «Полученная связь не позволяет судить о её причинном характере: возможно влияние неучтённых факторов (например, возраста или исходного уровня мотивации)».
Вывод

Шаблон безопасного вывода: «выявлена статистически значимая [прямая/обратная] связь [силы] между A и B (r = …; p = …); характер связи требует дополнительной проверки, так как корреляционный дизайн не позволяет установить причинно-следственные отношения».

Частые ошибки

  • Писать «влияет» после обычной корреляции. Самая частая ошибка. Без эксперимента — только «связан с».
  • Игнорировать конфаундеры. Не подумали про возраст/пол/стаж — и приписали связь не тому фактору.
  • Считать высокий r доказательством. r = 0,9 без контроля условий доказывает только согласованность чисел.
  • Гонять десятки корреляций и радоваться значимым. При множестве проверок часть «значимых» связей — случайность.
  • Путать направление. «A связано с B» не говорит, кто первичен. Не додумывайте стрелку.
  • Делать причинный вывод по двум точкам во времени. Совпадение трендов — не причинность.

Частые вопросы

Если r большой и p < 0,01 — это точно настоящая связь?

Малое p говорит лишь, что связь вряд ли случайна в ваших данных. Оно ничего не говорит о причинности и не отменяет конфаундеров. Статистически значимая связь вполне может быть ложной — её просто держит скрытая третья переменная.

Как проверить, что связь не ложная?

Идеально — поставить эксперимент с контрольной группой. В рамках наблюдения — выровнять группы по возможным конфаундерам и пересчитать связь через частную корреляцию, зафиксировав подозрительный фактор C. Если связь после этого исчезает, она была ложной.

Можно ли вообще делать выводы по корреляции в дипломе?

Да, и это нормальный, законный дизайн. Просто формулируйте выводы на языке связи: «сопряжено», «связано», «чем больше A, тем меньше B». Корреляция отлично описывает структуру связей — она лишь не доказывает, кто кого порождает.

Чем тут поможет регрессия?

Регрессия позволяет предсказывать B по A и учитывать сразу несколько факторов (множественная регрессия), частично контролируя конфаундеры. Но и она на наблюдательных данных причинность не доказывает — только улучшает модель связи. Подробнее — в статье «Корреляция или регрессия».

Что делать, если научник требует написать «влияет»?

Уточните дизайн. Если было воздействие и контрольная группа — «влияет» уместно. Если просто замеры и корреляция — предложите формулировку «связано с» и оговорку про неучтённые факторы: это и корректнее, и защищается легче.

Короткий алгоритм

  1. Посчитали корреляцию — посмотрите на знак, силу и p в калькуляторе Пирсона.
  2. Спросите себя: нет ли обратного направления? Не первично ли B?
  3. Подумайте про конфаундер C (возраст, пол, стаж, исходный уровень) — что могло тянуть и A, и B?
  4. При подозрении — посчитайте частную корреляцию с фиксированным C.
  5. В выводах пишите про связь («сопряжено», «связано»), а «влияет/вызывает» — только если был эксперимент.
Совет

Запомните одну фразу — и половина ошибок исчезнет: «корреляция не значит причинно-следственную связь». Повесьте её над выводами своей главы.

Что ещё почитать

Сомневаетесь, не ложная ли ваша связь и как корректно сформулировать вывод — посчитайте коэффициент в калькуляторе, а за разбором под ключ загляните в базу методов или закажите консультацию.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.