Ковариация и корреляция: в чём разница простыми словами
Чем ковариация отличается от корреляции r, почему её нельзя сравнивать в разных единицах и зачем нормируют до диапазона −1…1. С формулами, расчётом по шагам, примерами и FAQ.
Вы посчитали ковариацию двух признаков — получили, скажем, 245. И сразу вопрос: это много или мало? Связь сильная или слабая? По одному этому числу понять нельзя.
А вот корреляция r = 0,82 говорит сама за себя: связь сильная и положительная. В этом и есть вся разница между двумя мерами.
В двух словах
Ковариация и корреляция измеряют одно и то же — совместную изменчивость двух признаков (растут ли они вместе). Разница в шкале: ковариация не нормирована и зависит от единиц измерения, а корреляция нормирована в диапазон от −1 до +1 и от единиц не зависит.
Поэтому в дипломе почти всегда считают именно корреляцию r — её можно толковать и сравнивать. Посчитать связь двух признаков автоматически можно в калькуляторе корреляции Пирсона, а подробный разбор метода — в руководстве по корреляции Пирсона.
Что такое ковариация
Ковариация показывает, как два признака изменяются совместно: когда один выше своего среднего, второй тоже чаще выше (или, наоборот, ниже).
Считают её так: для каждого объекта берут отклонение X от среднего X и отклонение Y от среднего Y, перемножают эти отклонения и усредняют произведения.
cov(X, Y) = Σ (xᵢ − x̄)(yᵢ − ȳ) / (n − 1)
где xᵢ, yᵢ — значения признаков у i-го объекта, x̄, ȳ — их средние, n — число объектов, Σ — сумма по всем объектам.
Знак результата уже кое-что говорит:
- Ковариация > 0 — признаки меняются в одну сторону (выше рост — выше вес).
- Ковариация < 0 — в разные стороны (больше тренировок — меньше время на дистанции).
- Ковариация ≈ 0 — линейной связи нет.
Дисперсия — это частный случай ковариации признака с самим собой: cov(X, X) = Var(X). Если эта связь неочевидна, загляните в разбор «Стандартное отклонение и дисперсия» — оттуда растут обе формулы.
Почему по ковариации ничего не понять
Проблема ковариации в том, что её величина зависит от единиц измерения. Само число ни о чём не говорит, пока вы не знаете масштаб признаков.
Возьмём рост и вес. Если рост в сантиметрах, ковариация выйдет одна; если перевести рост в метры — то же самое отношение даст число в 100 раз меньше. Связь не изменилась, а ковариация «прыгнула».
Пример. Для роста (см) и веса (кг) получили cov = 245. Сильная это связь или нет? Непонятно. Переведём рост в метры — получим cov = 2,45. Те же люди, та же зависимость, а число другое в 100 раз. Сравнивать такие ковариации между исследованиями бессмысленно.
Отсюда два неудобства: ковариацию нельзя истолковать в отрыве от масштаба и нельзя сравнивать разные пары признаков. Нужна мера, которая не зависит от единиц.
Корреляция — это нормированная ковариация
Чтобы убрать влияние масштаба, ковариацию делят на произведение стандартных отклонений обоих признаков. Получается коэффициент корреляции Пирсона r:
r = cov(X, Y) / (sₓ · s_y)
где sₓ, s_y — стандартные отклонения X и Y. Деление на отклонения «сокращает» единицы измерения, и r остаётся безразмерным числом в диапазоне от −1 до +1.
Теперь величину можно читать напрямую:
- r = +1 — идеальная прямая связь (точки лежат на одной восходящей линии);
- r = −1 — идеальная обратная связь;
- r = 0 — линейной связи нет.
Таблица 1 — Чем ковариация отличается от корреляции r
| Свойство | Ковариация | Корреляция r |
|---|---|---|
| Диапазон значений | от −∞ до +∞ | от −1 до +1 |
| Зависит от единиц измерения | да | нет |
| Можно сравнивать разные пары | нет | да |
| Показывает знак связи | да | да |
| Показывает силу связи | нет (число несопоставимо) | да (по модулю) |
Как видно из таблицы 1, обе меры дают одинаковый знак связи, но только корреляция показывает её силу в понятной шкале. Поэтому в выводах диплома опираются на r, а ковариация остаётся промежуточным шагом расчёта.
Как читать величину r
Сам по себе диапазон −1…1 ещё нужно перевести в слова «слабая / средняя / сильная». Чаще всего пользуются шкалой Чеддока.
Ориентиры по модулю |r|: до 0,3 — слабая связь, 0,3–0,5 — умеренная, 0,5–0,7 — заметная, 0,7–0,9 — сильная, выше 0,9 — очень сильная. Знак (+/−) при этом говорит о направлении.
Сила связи определяется по модулю |r|, а знак — отдельно. То есть r = −0,82 — это такая же сильная связь, как r = +0,82, просто обратная: один признак растёт, другой падает.
Пример: считаем обе меры по шагам
Покажем на маленьких данных, как ковариация превращается в корреляцию. Пусть у 5 студентов измерили число тренировок в неделю (X) и результат в прыжке в длину, см (Y).
Таблица 2 — Исходные данные и отклонения от средних
| Студент | X (трен.) | Y (см) | xᵢ − x̄ | yᵢ − ȳ | произведение |
|---|---|---|---|---|---|
| 1 | 2 | 180 | −2 | −16 | 32 |
| 2 | 3 | 190 | −1 | −6 | 6 |
| 3 | 4 | 195 | 0 | −1 | 0 |
| 4 | 5 | 205 | 1 | 9 | 9 |
| 5 | 6 | 210 | 2 | 14 | 28 |
Средние: x̄ = 4 тренировки, ȳ = 196 см. Сумма произведений отклонений = 32 + 6 + 0 + 9 + 28 = 75.
Шаг 1. Ковариация. Делим сумму на (n − 1) = 4:
cov = 75 / 4 = 18,75
Число положительное — связь прямая. Но «18,75» само по себе не говорит, сильная связь или нет.
Шаг 2. Стандартные отклонения. Для X получается sₓ ≈ 1,58, для Y ≈ 11,9 (по той же логике: корень из среднего квадрата отклонений).
Шаг 3. Корреляция. Делим ковариацию на произведение отклонений:
r = 18,75 / (1,58 · 11,9) ≈ 18,75 / 18,8 ≈ 0,997
Вот теперь всё ясно: r ≈ 1,00 — связь очень сильная и прямая. Чем больше тренировок, тем дальше прыжок. Одно и то же отношение, но r истолковать можно, а ковариацию — нет.
И ковариация, и корреляция ловят только линейную связь. Если зависимость есть, но она изогнутая (например, результат растёт, а потом выходит на плато), оба показателя могут оказаться близки к нулю, хотя связь реально существует. Всегда смотрите на диаграмму рассеяния.
Что писать в дипломе
Готовые формулировки — подставьте свои числа:
- «Теснота связи между показателями оценивалась коэффициентом линейной корреляции Пирсона r».
- «Выявлена сильная положительная связь между числом тренировок и результатом в прыжке (r = 0,99; p < 0,05)».
- «Коэффициент корреляции r = 0,99 по шкале Чеддока соответствует очень сильной связи».
- «С увеличением числа тренировок результат в прыжке закономерно возрастает».
В тексте диплома пишут именно коэффициент корреляции и уровень значимости p, а не ковариацию. Ковариация — это служебный, промежуточный расчёт; в выводы и таблицы её не выносят.
Частые ошибки
- Толковать величину ковариации. «cov = 245, связь сильная» — так нельзя: число зависит от единиц. Для силы связи нужен r.
- Считать, что корреляция = причинность. r показывает совместное изменение, но не доказывает, что один признак вызывает другой. Связь может объясняться третьим фактором.
- Забывать про знак. r = −0,8 — это сильная связь, а не «слабее, чем 0,8». Сила — по модулю.
- Применять r к нелинейной или явно ненормальной зависимости. Для рангов и нелинейной монотонной связи берут корреляцию Спирмена.
- Делать вывод по r без проверки значимости. Даже большой r на маленькой выборке может быть случайным — нужен p-уровень.
Частые вопросы
Если связь сильная — корреляция или ковариация это покажет?
Покажет корреляция. Ковариация лишь скажет знак (+ или −), а вот «сильная / слабая» читается только по r, потому что он нормирован в диапазон −1…1.
Можно ли вообще не считать ковариацию?
На практике — да. Калькулятор считает её внутри как промежуточный шаг, а вам на руки выдаёт сразу r. Понимать формулу полезно, но руками гонять ковариацию для диплома не нужно: посчитайте связь в калькуляторе Пирсона.
Чем отличается ковариация от корреляции одним предложением?
Ковариация — это «сырая» совместная изменчивость в единицах признаков, а корреляция — та же изменчивость, поделённая на стандартные отклонения и приведённая к понятной шкале от −1 до +1.
Что выбрать, если данные ненормальные или это ранги?
Тогда коэффициент Пирсона не подходит — берите ранговую корреляцию Спирмена. Логика «нормировки» там та же, но она устойчива к выбросам и работает с порядковыми шкалами.
Может ли корреляция быть больше 1?
Нет. По построению r всегда лежит в диапазоне от −1 до +1. Если в расчётах вышло больше — где-то ошибка (чаще в стандартных отклонениях или сумме произведений).
Короткий алгоритм
- Посчитайте средние x̄ и ȳ и отклонения каждого значения от своего среднего.
- Перемножьте отклонения, сложите и поделите на (n − 1) — это ковариация (знак связи).
- Поделите ковариацию на произведение стандартных отклонений — это корреляция r (сила связи).
- Прочитайте |r| по шкале Чеддока и проверьте значимость (p-уровень).
- В диплом вынесите r и p; ковариацию оставьте за кадром.
Коротко: ковариация = знак связи в «сырых» единицах, корреляция r = та же связь, нормированная в −1…1, которую можно толковать и сравнивать. Всю арифметику за вас сделает калькулятор корреляции Пирсона.
Что ещё почитать
- Калькулятор корреляции Пирсона — посчитать r двух признаков автоматически.
- Руководство по корреляции Пирсона — полный разбор метода, условия применения и оформление.
- Стандартное отклонение и дисперсия — откуда берутся sₓ и s_y в формуле r.
- Корреляция Спирмена — ранговая связь для ненормальных данных.
- Описательная статистика — средние и стандартные отклонения для расчёта.
Не уверены, какой коэффициент связи подходит вашим данным — посчитайте в калькуляторе Пирсона, а если нужна помощь под ключ, загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.