Корреляция Кендалла (τ): когда применять и как считать
Что показывает коэффициент Кендалла тау, чем отличается от Спирмена, когда его брать (малые выборки, много совпадающих рангов), как считать и интерпретировать. С примерами и FAQ.
Вы нашли два признака, которые, кажется, связаны: чем выше мотивация, тем выше место в рейтинге; чем больше стаж, тем выше разряд. Чтобы доказать связь по баллам и рангам, обычно берут Спирмена — но есть и его «младший брат», коэффициент Кендалла.
Кендалла выбирают, когда выборка совсем маленькая или когда в данных много одинаковых значений. Разберём, что показывает τ (греческая «тау»), чем он отличается от Спирмена и как его описать в дипломе.
В двух словах
- Корреляция Кендалла (обозначается τ, «тау») — это ранговая, непараметрическая мера связи между двумя признаками. Показывает, насколько согласованы порядки двух рядов: если по одному признаку объект выше — выше ли он и по второму.
- По смыслу это «родственник» корреляции Спирмена: оба работают с рангами, не требуют нормальности и устойчивы к выбросам. Кендалла предпочитают на малых выборках и когда в данных много совпадающих рангов (связок).
Если данные числовые и нормальные, для линейной связи мощнее корреляция Пирсона. О различии параметрических и непараметрических методов — в обзоре «Параметрические и непараметрические критерии».
Что показывает коэффициент Кендалла
Представьте, что вы берёте любых двух студентов из выборки и сравниваете их по обоим признакам сразу. Возможны два исхода:
- Согласованная пара (конкорданс): тот, кто выше по первому признаку, выше и по второму. Порядок «совпал».
- Несогласованная пара (дисконданс): по первому признаку выше один студент, а по второму — другой. Порядок «перевернулся».
Коэффициент Кендалла τ — это, по сути, разница между долей согласованных и долей несогласованных пар. Если все пары согласованы, τ = +1 (идеальная прямая связь). Если все перевёрнуты, τ = −1 (идеальная обратная). Если поровну — τ ≈ 0, связи нет.
У τ очень наглядный смысл: это перевес «совпадающих» пар над «перевёрнутыми». Например, τ = 0,5 примерно означает, что согласованных пар на 50 процентных пунктов больше, чем несогласованных. У Спирмена такой простой житейской трактовки нет.
Как и любой коэффициент корреляции, τ всегда лежит в диапазоне от −1 до +1: знак показывает направление связи, а модуль — её силу.
Когда брать Кендалла, а когда Спирмена
Оба коэффициента ранговые и решают одну задачу — измерить монотонную связь по рангам. Часто они дают близкий вывод. Но в некоторых ситуациях Кендалла предпочтительнее.
Когда брать Кендалла:
- Очень маленькая выборка. При 5–15 наблюдениях распределение τ ведёт себя «спокойнее», и оценка значимости надёжнее, чем у Спирмена.
- Много совпадающих значений (связок). Если признак измерен грубо — например, по 3–5-балльной шкале, и одинаковых баллов масса, у Кендалла есть корректные поправки на связки, и он меньше «искажается».
- Нужна понятная интерпретация. Когда хочется сказать словами «насколько чаще порядок совпадает, чем переворачивается» — это про τ.
Пример. Двое экспертов независимо расставили 8 конкурсных работ по местам (с 1-го по 8-е). Выборка крошечная, данные — чистые ранги. Чтобы оценить согласованность экспертов, берут Кендалла.
Когда брать Спирмена:
- Выборка средняя или большая (примерно от 20–30 пар), связок немного.
- Нужен коэффициент, сопоставимый по величине с Пирсоном (значения ρ обычно ближе к привычному r, чем τ).
- В вашей методичке или у научного руководителя по умолчанию ждут именно Спирмена — он в дипломах встречается чаще.
Пример. У 60 студентов есть баллы тревожности и место в рейтинге успеваемости, совпадений мало. Здесь удобнее и привычнее Спирмен.
τ почти всегда по модулю меньше ρ на тех же данных (примерно в полтора раза). Это не значит, что связь «слабее», — просто у коэффициентов разные шкалы. Не сравнивайте τ и ρ между собой напрямую и не пугайтесь, что τ «маленький».
Как считать коэффициент Кендалла
Считать вручную не обязательно — всё делает калькулятор корреляции Кендалла. Но понимать логику полезно для защиты.
Базовая идея (для случая без совпадений) выражается формулой:
τ = (P − Q) / (n·(n − 1) / 2)
где:
- P — число согласованных пар (порядок совпал);
- Q — число несогласованных пар (порядок перевернулся);
- n·(n − 1) / 2 — общее число всех возможных пар объектов.
Знаменатель — это просто «сколько всего пар можно составить из n объектов». Числитель — перевес согласованных пар над несогласованными. Делим одно на другое и получаем число от −1 до +1.
Когда в данных есть совпадающие ранги (связки), применяют поправленную версию — её называют τ-b: она корректно учитывает совпадения в знаменателе. Именно τ-b обычно выдают калькуляторы и SPSS, и именно его берут для балльных шкал с повторами.
Алгоритм расчёта вручную выглядит так:
- Упорядочьте данные по первому признаку (X) — от меньшего к большему.
- Идите по второму признаку (Y) сверху вниз и для каждого объекта считайте, сколько ниже него значений Y больше (это согласованные пары, P) и сколько меньше (несогласованные, Q).
- Сложите все P и все Q по всем объектам.
- Подставьте P, Q и n в формулу (при наличии связок — в формулу τ-b).
- Проверьте значимость: сравните τ с критическим значением по n или посмотрите на p-значение.
Сила и знак: как читать τ
Силу связи оценивают по модулю коэффициента, знак — отдельно.
- Знак показывает направление: «+» — прямая связь (растут вместе), «−» — обратная (один растёт, другой падает).
- Модуль показывает тесноту. Привычная для дипломов шкала Чеддока создавалась под Пирсона и Спирмена, поэтому к τ её применяют с оговоркой: из-за другой шкалы τ те же отношения дают меньшие числа.
Таблица 1 — Ориентир для оценки силы связи по модулю коэффициента
| Модуль коэффициента | Спирмен ρ (шкала Чеддока) | Кендалл τ (ориентировочно) |
|---|---|---|
| очень слабая / нет связи | до 0,3 | до 0,2 |
| умеренная | 0,3 — 0,5 | 0,2 — 0,3 |
| заметная | 0,5 — 0,7 | 0,3 — 0,5 |
| высокая | 0,7 — 0,9 | 0,5 — 0,7 |
| очень высокая | свыше 0,9 | свыше 0,7 |
Правый столбец — грубый ориентир, а не строгий стандарт. Надёжнее опираться на знак, значимость (p) и сам смысл τ как перевеса согласованных пар. Если научный руководитель просит «по Чеддоку», безопаснее посчитать заодно и Спирмена — для него шкала «родная».
Проверка значимости
Сам по себе τ ещё не доказывает, что связь не случайна: на маленькой выборке заметный коэффициент может появиться от случая. Поэтому τ проверяют на статистическую значимость.
Есть два эквивалентных пути:
- По таблице. Сравнить |τ| с критическим значением для вашего n. Если |τ| больше или равно критическому — связь значима.
- По p-значению. Если p < 0,05 — связь статистически значима. Подробнее — в статье «Что такое p-значение».
Чем больше выборка, тем меньший по модулю τ уже считается значимым. Нужное критическое значение по вашему n калькулятор берёт сам и сразу выдаёт p и готовый вывод.
Разбор примера с расчётом
Двое преподавателей независимо оценили 6 студенческих проектов и расставили их по местам (1 — лучший). Нужно понять, насколько согласованы их оценки. Данные — чистые ранги, выборка крошечная, поэтому берём Кендалла.
Таблица 2 — Расчёт согласованных и несогласованных пар (n = 6)
| Проект (по эксперту А) | Ранг эксперта А | Ранг эксперта Б | Согласованных ниже (P) | Несогласованных ниже (Q) |
|---|---|---|---|---|
| Проект 1 | 1 | 2 | 4 | 1 |
| Проект 2 | 2 | 1 | 4 | 0 |
| Проект 3 | 3 | 4 | 2 | 1 |
| Проект 4 | 4 | 3 | 2 | 0 |
| Проект 5 | 5 | 6 | 0 | 1 |
| Проект 6 | 6 | 5 | 0 | 0 |
Складываем столбцы: P = 4 + 4 + 2 + 2 + 0 + 0 = 12, Q = 1 + 0 + 1 + 0 + 1 + 0 = 2. Всего пар: n·(n − 1)/2 = 6·5/2 = 15.
Подставляем в формулу:
τ = (P − Q) / (n·(n − 1)/2) = (12 − 2) / 15 = 10 / 15 ≈ 0,67
Получился τ ≈ 0,67 — высокая прямая связь: эксперты оценивают проекты согласованно. Согласованных пар явно больше, чем перевёрнутых (12 против 2 из 15).
Вывод для диплома: «Оценки двух экспертов согласованы: выявлена высокая прямая связь рангов (τ = 0,67; n = 6). Порядок проектов у экспертов совпадает заметно чаще, чем расходится».
Что писать в дипломе
В тексте укажите: сам коэффициент τ (со знаком и значением), число пар n, уровень значимости p, а словами — направление и тесноту связи. Полезно добавить «человеческую» расшифровку τ как перевеса согласованных пар.
Готовые формулировки:
- «Между показателями выявлена заметная прямая связь (τ = 0,42; p < 0,05): с ростом одного признака порядок по второму чаще сохраняется, чем меняется».
- «Связь обратная и высокая (τ = −0,58; p < 0,01)».
- «Статистически значимой связи не обнаружено (τ = 0,11; p = 0,37)».
Почему именно Кендалла, тоже стоит пояснить одной фразой: «Учитывая малый объём выборки и большое число совпадающих рангов, использован коэффициент ранговой корреляции Кендалла (τ-b)».
Корреляция — это не причинность. Даже сильная и значимая τ не доказывает, что один признак вызывает другой: возможен общий третий фактор или совпадение. В выводах пишите «связаны» или «согласованы», а не «влияет».
Частые ошибки
- Сравнивать τ и ρ как одинаковые числа. У них разные шкалы: τ почти всегда меньше ρ на тех же данных. Это нормально.
- Прикладывать к τ шкалу Чеддока буквально. Она создана под Пирсона и Спирмена; для τ те же связи дают меньшие значения.
- Не учитывать связки. При множестве совпадающих рангов нужен вариант τ-b с поправкой, а не «голая» формула.
- Игнорировать значимость. Заметный τ на крошечной выборке может быть случайным — всегда проверяйте по p или по таблице.
- Трактовать связь как влияние. Согласованность порядков ≠ причинно-следственная зависимость.
Частые вопросы
Что показывает коэффициент Кендалла простыми словами?
Насколько согласованы порядки двух признаков. Берёте любые две пары объектов: если тот, кто выше по одному показателю, выше и по другому, — порядок «совпал». τ — это перевес таких совпадений над «переворотами», число от −1 до +1.
Чем корреляция Кендалла отличается от Спирмена?
Оба ранговые и не требуют нормальности. Спирмен считается через разности рангов и по величине ближе к Пирсону; Кендалла считают через согласованные и несогласованные пары, он устойчивее на малых выборках и при множестве связок, а его значение легче трактовать словами. Что выбрать в спорной паре «Пирсон/Спирмен» — в статье «Корреляция Пирсона или Спирмена».
Какое значение τ считается сильной связью?
Строгого стандарта нет. Ориентир: до 0,2 по модулю — очень слабая, 0,2–0,3 — умеренная, 0,3–0,5 — заметная, 0,5–0,7 — высокая, свыше 0,7 — очень высокая. Надёжнее опираться на знак и значимость, а не только на «силу по таблице».
Сколько нужно наблюдений?
Формально τ считается уже от 4–5 пар, и именно на таких малых выборках он особенно к месту. Но чем больше пар, тем меньший коэффициент уже значим и тем надёжнее вывод.
Что такое τ-a и τ-b?
τ-a — базовый вариант для данных без совпадений. τ-b — версия с поправкой на совпадающие ранги (связки); её и берут для балльных шкал, где повторов много. Калькулятор обычно выдаёт именно τ-b.
Можно ли считать Кендалла в Excel?
Готовой функции для τ в Excel нет (встроенная КОРРЕЛ считает только Пирсона). Поэтому τ удобнее посчитать в онлайн-калькуляторе Кендалла или в SPSS онлайн: «Корреляции» → «Парные» → отметить «Кендалла τ-b».
Короткий алгоритм
- Данные — баллы или ранги (или ненормальные числа)? Тогда корреляция ранговая: Спирмен или Кендалл. Если числа нормальные и связь линейная — нужен Пирсон.
- Выборка маленькая или совпадающих рангов много? → берите Кендалла (вариант τ-b).
- Выборка средняя/большая, связок немного, нужна привычная шкала? → берите Спирмена.
- Посчитайте τ, оцените знак (направление) и модуль (силу), проверьте значимость (p < 0,05).
- В выводе укажите τ, n, p и расшифруйте связь словами.
Короче: Кендалла τ — ранговая мера согласованности порядков (от −1 до +1) для малых выборок и данных с множеством совпадений. Считают как перевес согласованных пар над несогласованными, при связках берут τ-b. В выводе приводят τ, n, p и направление связи. Если выборка большая, а связок мало — привычнее Спирмен.
Что ещё почитать
- Корреляция Спирмена: полное руководство — ближайший «родственник» Кендалла с разбором формулы.
- Пирсон или Спирмен — что выбрать — какой коэффициент взять под ваши данные.
- Параметрические и непараметрические критерии — в чём принципиальная разница.
- Шкалы измерения — почему для баллов и рангов берут ранговые методы.
- Что такое p-значение простыми словами — как читать значимость.
Посчитать свои данные за пару минут можно в калькуляторе корреляции Кендалла — он сам найдёт согласованные и несогласованные пары, учтёт связки, посчитает τ, подберёт критическое значение и оформит вывод. Полный список методов — в базе методов, а если нужна вся статистика под ключ — поможет консультация эксперта.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию