Точечно-бисериальная корреляция: формула и пример
Когда нужна точечно-бисериальная корреляция, как связать «да/нет» или пол с баллом теста, как читать знак и силу r. С формулой, примером по шагам и FAQ.
У вас одна переменная — числовая (балл теста, рост, время), а вторая делится строго на две группы: мужчины/женщины, прошёл/не прошёл, экспериментальная/контрольная. Обычный коэффициент Пирсона как будто не подходит — там же «нет чисел».
На самом деле подходит. Связь между дихотомией и числом измеряет точечно-бисериальная корреляция — и это тот же Пирсон, просто под другим именем.
В двух словах
Точечно-бисериальная корреляция (r_pb) показывает силу и направление связи между дихотомическим признаком (две категории, кодируются 0 и 1) и количественным признаком (баллы, секунды, сантиметры).
Это частный случай корреляции Пирсона: если категории закодировать нулём и единицей и посчитать обычный r, вы получите ровно r_pb. Поэтому считать можно прямо в калькуляторе корреляции Пирсона — нужно лишь правильно закодировать группы. Общую механику корреляции разбираем в руководстве по корреляции Пирсона.
Когда применять точечно-бисериальную корреляцию
Метод нужен ровно в одной ситуации: один признак — дихотомия, второй — количественный.
- Дихотомия — это «настоящие» две категории. Пол (муж/жен), результат (сдал/не сдал), группа (ЭГ/КГ), наличие признака (курит/не курит).
- Количественный признак — это шкала с числами. Балл теста, уровень тревожности, время на дистанции, рост. Подробнее о типах данных — в статье «Шкалы измерения».
- Вопрос исследования звучит так: «Связан ли пол с уровнем тревожности?», «Отличается ли балл у тех, кто прошёл подготовку, от тех, кто не прошёл?».
Дихотомия должна быть естественной, а не «разрезанной» искусственно из непрерывной шкалы. Если вы сами поделили рост на «высокие/низкие» — это уже не точечно-бисериальная, а бисериальная корреляция (другая формула). Не превращайте нормальные числа в «да/нет» без необходимости.
Связь с Пирсоном и почему это удобно
Точечно-бисериальный коэффициент — это коэффициент Пирсона, посчитанный для случая, когда одна переменная принимает только два значения (0 и 1).
Отсюда два практических следствия.
Первое. Не нужен отдельный калькулятор. Закодируйте группы числами и считайте Пирсона.
Второе. Тот же вопрос можно задать иначе — как сравнение двух средних. «Связан ли пол с баллом» и «отличается ли средний балл у мужчин и женщин» — это одно и то же. Поэтому r_pb тесно дружит с t-критерием Стьюдента: они проверяют одну гипотезу с разных сторон.
Если ваша цель — просто доказать, что средние в двух группах различаются, берите t-критерий Стьюдента: он привычнее научруку и даёт p-значение «из коробки». Точечно-бисериальную корреляцию используйте, когда нужна именно мера силы связи (величина эффекта) или когда этот признак — часть корреляционной матрицы с другими.
Как читать знак и силу
Коэффициент r_pb лежит в диапазоне от −1 до +1, как у обычного Пирсона. Но знак здесь полностью зависит от того, какую группу вы закодировали единицей — это самое важное и самое скользкое место.
- Знак «+» означает: у группы, помеченной 1, количественный признак в среднем выше.
- Знак «−» означает: у группы с кодом 1 признак в среднем ниже.
Если переставить коды (1 ↔ 0), знак просто перевернётся, а сила (модуль r) не изменится. Поэтому в дипломе всегда прямо пишите, что вы закодировали единицей.
Силу связи оценивают по модулю — ориентиры те же, что у Пирсона:
Таблица 1 — Ориентиры силы связи по модулю r_pb
| |r_pb| | Сила связи | Как описать | |---|---|---| | 0,0 – 0,1 | практически нет | связь отсутствует | | 0,1 – 0,3 | слабая | заметна, но мала | | 0,3 – 0,5 | умеренная | связь средней силы | | 0,5 – 0,7 | заметная | выраженная связь | | 0,7 – 1,0 | сильная | тесная связь |
Из таблицы 1 видно: само по себе число r_pb говорит о тесноте связи, а знак — о направлении. Значимость (можно ли переносить вывод на всю генеральную совокупность) проверяется отдельно — по p-значению, которое выдаёт калькулятор.
Пример: пол × балл теста
Разберём по шагам. В группе из 10 студентов измерили балл за тест на стрессоустойчивость и зафиксировали пол. Кодируем: женщины = 1, мужчины = 0.
Таблица 2 — Исходные данные (n = 10)
| Студент | Пол (код) | Балл |
|---|---|---|
| 1 | жен (1) | 78 |
| 2 | муж (0) | 65 |
| 3 | жен (1) | 82 |
| 4 | муж (0) | 60 |
| 5 | жен (1) | 75 |
| 6 | муж (0) | 68 |
| 7 | жен (1) | 80 |
| 8 | муж (0) | 62 |
| 9 | жен (1) | 77 |
| 10 | муж (0) | 64 |
Чтобы понять логику, посчитаем средние по группам:
- Средний балл женщин (код 1): (78 + 82 + 75 + 80 + 77) / 5 = 392 / 5 = 78,4.
- Средний балл мужчин (код 0): (65 + 60 + 68 + 62 + 64) / 5 = 319 / 5 = 63,8.
Женщины в среднем набрали заметно больше, значит r_pb будет положительным (выше у группы с кодом 1).
Формулу удобно записать через средние по группам:
r_pb = (M₁ − M₀) / Sₓ × √(p · q)
где M₁ — среднее по группе с кодом 1, M₀ — среднее по группе с кодом 0, Sₓ — стандартное отклонение всех баллов, p и q — доли групп (здесь по 0,5 и 0,5).
Подставляем. Стандартное отклонение всех 10 баллов ≈ 7,9; p = q = 0,5, значит √(0,5 · 0,5) = 0,5.
r_pb = (78,4 − 63,8) / 7,9 × 0,5 = 14,6 / 7,9 × 0,5 ≈ 0,92
Получили r_pb ≈ 0,92 — сильная положительная связь. Тот же результат вы увидите, если вобьёте столбец кодов (1/0) и столбец баллов в калькулятор Пирсона: он же выдаст p-значение для проверки значимости.
Знак «+» здесь означает только то, что выше балл у группы, закодированной единицей (женщины). Закодируйте мужчин единицей — получите r_pb ≈ −0,92. Число силы то же, вывод по сути тот же, но в тексте обязательно укажите кодировку, иначе знак невозможно интерпретировать.
Что писать в дипломе
Готовые формулировки — подставьте свои числа и кодировку:
- «Для оценки связи между полом (дихотомический признак) и баллом теста (количественный признак) использован точечно-бисериальный коэффициент корреляции r_pb».
- «Женский пол кодировался значением 1, мужской — 0».
- «Получено r_pb = 0,92 (p < 0,05), что свидетельствует о сильной положительной связи: у девушек балл стрессоустойчивости в среднем выше, чем у юношей».
- «Связь между фактом прохождения подготовки и результатом теста оказалась умеренной (r_pb = 0,38; p < 0,05)».
Минимальный набор для текста: какие переменные, как закодировали, значение r_pb, p-значение, словесная интерпретация знака и силы. Без кодировки знак повисает в воздухе.
Частые ошибки
- Не указали кодировку. Без фразы «1 = …, 0 = …» знак r_pb нельзя прочитать. Это ошибка №1.
- Искусственно дихотомизировали число. Поделили рост на «высокий/низкий» и считаете r_pb — нужна бисериальная корреляция, а лучше вообще не резать числа.
- Закодировали тремя и более значениями. Три группы (низкий/средний/высокий) — это уже не дихотомия; берите дисперсионный анализ ANOVA или критерий Краскела-Уоллиса.
- Путают силу и значимость. Большое r при крошечной выборке может быть случайным; всегда смотрите p-значение.
- Делают вывод о причине. Корреляция — это связь, а не «пол влияет на балл». Пишите «связан с», а не «вызывает».
Частые вопросы
Чем точечно-бисериальная корреляция отличается от обычного Пирсона?
Ничем по сути — это тот же Пирсон, просто одна из переменных принимает только два значения (0 и 1). Отдельная формула и название нужны лишь для удобства и для корректного описания в методах.
Можно ли вместо неё взять t-критерий Стьюдента?
Да, они проверяют одну гипотезу. t-критерий Стьюдента сравнивает средние двух групп и отвечает «различия значимы?». r_pb отвечает «насколько тесная связь» и даёт величину эффекта. Часто в дипломе приводят оба.
Какими числами кодировать группы — обязательно 0 и 1?
Удобнее всего 0 и 1, но математически подойдёт любая пара чисел (например, 1 и 2) — модуль r не изменится. От выбора зависит только знак, поэтому 0/1 берут, чтобы не запутаться: единица = «есть признак / интересующая группа».
А если группы сильно разного размера?
Метод работает, но при очень неравных долях (например, 5% против 95%) величина r_pb «зажимается» и кажется маленькой даже при реальной разнице. В таком случае честнее опираться на сравнение средних (t-критерий Стьюдента) и отдельно отметить дисбаланс групп.
Нужна ли нормальность распределения?
Для самой оценки r_pb — нет. Но для проверки его значимости по стандартной формуле количественный признак желательно близок к нормальному. Проверить можно критерием Шапиро-Уилка; при сильных отклонениях надёжнее непараметрический критерий Манна-Уитни.
Короткий алгоритм
- Убедитесь, что один признак — естественная дихотомия, второй — числовой.
- Закодируйте группы: 1 = интересующая группа, 0 = другая. Запишите кодировку.
- Вбейте два столбца (коды и баллы) в калькулятор корреляции Пирсона.
- Прочитайте r_pb (сила по модулю, направление по знаку) и p-значение (значимость).
- Опишите словами: какая группа выше, насколько тесная связь, значима ли она.
Если групп больше двух или дихотомию вы «вырезали» из непрерывной шкалы — точечно-бисериальная корреляция не подходит. Для трёх и более групп — ANOVA / Краскел-Уоллис, для искусственной дихотомии — бисериальная корреляция.
Что ещё почитать
- Калькулятор корреляции Пирсона — посчитать r_pb и p-значение, закодировав группы 0/1.
- Руководство по корреляции Пирсона — общая механика корреляции, на которой стоит этот метод.
- Шкалы измерения — как отличить дихотомию от количественного признака и не ошибиться с методом.
- Калькулятор t-критерия Стьюдента — тот же вопрос как сравнение двух средних.
- Критерий Манна-Уитни — непараметрическая альтернатива при ненормальных данных.
Не уверены, какой метод подходит под ваши переменные — загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.