StatBlank
Основы18 июня 2026·9 мин чтения

Точечно-бисериальная корреляция: формула и пример

Когда нужна точечно-бисериальная корреляция, как связать «да/нет» или пол с баллом теста, как читать знак и силу r. С формулой, примером по шагам и FAQ.

У вас одна переменная — числовая (балл теста, рост, время), а вторая делится строго на две группы: мужчины/женщины, прошёл/не прошёл, экспериментальная/контрольная. Обычный коэффициент Пирсона как будто не подходит — там же «нет чисел».

На самом деле подходит. Связь между дихотомией и числом измеряет точечно-бисериальная корреляция — и это тот же Пирсон, просто под другим именем.

В двух словах

Точечно-бисериальная корреляция (r_pb) показывает силу и направление связи между дихотомическим признаком (две категории, кодируются 0 и 1) и количественным признаком (баллы, секунды, сантиметры).

Это частный случай корреляции Пирсона: если категории закодировать нулём и единицей и посчитать обычный r, вы получите ровно r_pb. Поэтому считать можно прямо в калькуляторе корреляции Пирсона — нужно лишь правильно закодировать группы. Общую механику корреляции разбираем в руководстве по корреляции Пирсона.

Когда применять точечно-бисериальную корреляцию

Метод нужен ровно в одной ситуации: один признак — дихотомия, второй — количественный.

  • Дихотомия — это «настоящие» две категории. Пол (муж/жен), результат (сдал/не сдал), группа (ЭГ/КГ), наличие признака (курит/не курит).
  • Количественный признак — это шкала с числами. Балл теста, уровень тревожности, время на дистанции, рост. Подробнее о типах данных — в статье «Шкалы измерения».
  • Вопрос исследования звучит так: «Связан ли пол с уровнем тревожности?», «Отличается ли балл у тех, кто прошёл подготовку, от тех, кто не прошёл?».
Заметка

Дихотомия должна быть естественной, а не «разрезанной» искусственно из непрерывной шкалы. Если вы сами поделили рост на «высокие/низкие» — это уже не точечно-бисериальная, а бисериальная корреляция (другая формула). Не превращайте нормальные числа в «да/нет» без необходимости.

Связь с Пирсоном и почему это удобно

Точечно-бисериальный коэффициент — это коэффициент Пирсона, посчитанный для случая, когда одна переменная принимает только два значения (0 и 1).

Отсюда два практических следствия.

Первое. Не нужен отдельный калькулятор. Закодируйте группы числами и считайте Пирсона.

Второе. Тот же вопрос можно задать иначе — как сравнение двух средних. «Связан ли пол с баллом» и «отличается ли средний балл у мужчин и женщин» — это одно и то же. Поэтому r_pb тесно дружит с t-критерием Стьюдента: они проверяют одну гипотезу с разных сторон.

Совет

Если ваша цель — просто доказать, что средние в двух группах различаются, берите t-критерий Стьюдента: он привычнее научруку и даёт p-значение «из коробки». Точечно-бисериальную корреляцию используйте, когда нужна именно мера силы связи (величина эффекта) или когда этот признак — часть корреляционной матрицы с другими.

Как читать знак и силу

Коэффициент r_pb лежит в диапазоне от −1 до +1, как у обычного Пирсона. Но знак здесь полностью зависит от того, какую группу вы закодировали единицей — это самое важное и самое скользкое место.

  • Знак «+» означает: у группы, помеченной 1, количественный признак в среднем выше.
  • Знак «−» означает: у группы с кодом 1 признак в среднем ниже.

Если переставить коды (1 ↔ 0), знак просто перевернётся, а сила (модуль r) не изменится. Поэтому в дипломе всегда прямо пишите, что вы закодировали единицей.

Силу связи оценивают по модулю — ориентиры те же, что у Пирсона:

Таблица 1 — Ориентиры силы связи по модулю r_pb

| |r_pb| | Сила связи | Как описать | |---|---|---| | 0,0 – 0,1 | практически нет | связь отсутствует | | 0,1 – 0,3 | слабая | заметна, но мала | | 0,3 – 0,5 | умеренная | связь средней силы | | 0,5 – 0,7 | заметная | выраженная связь | | 0,7 – 1,0 | сильная | тесная связь |

Из таблицы 1 видно: само по себе число r_pb говорит о тесноте связи, а знак — о направлении. Значимость (можно ли переносить вывод на всю генеральную совокупность) проверяется отдельно — по p-значению, которое выдаёт калькулятор.

Пример: пол × балл теста

Разберём по шагам. В группе из 10 студентов измерили балл за тест на стрессоустойчивость и зафиксировали пол. Кодируем: женщины = 1, мужчины = 0.

Таблица 2 — Исходные данные (n = 10)

Студент Пол (код) Балл
1 жен (1) 78
2 муж (0) 65
3 жен (1) 82
4 муж (0) 60
5 жен (1) 75
6 муж (0) 68
7 жен (1) 80
8 муж (0) 62
9 жен (1) 77
10 муж (0) 64

Чтобы понять логику, посчитаем средние по группам:

  • Средний балл женщин (код 1): (78 + 82 + 75 + 80 + 77) / 5 = 392 / 5 = 78,4.
  • Средний балл мужчин (код 0): (65 + 60 + 68 + 62 + 64) / 5 = 319 / 5 = 63,8.

Женщины в среднем набрали заметно больше, значит r_pb будет положительным (выше у группы с кодом 1).

Формулу удобно записать через средние по группам:

r_pb = (M₁ − M₀) / Sₓ × √(p · q)

где M₁ — среднее по группе с кодом 1, M₀ — среднее по группе с кодом 0, Sₓ — стандартное отклонение всех баллов, p и q — доли групп (здесь по 0,5 и 0,5).

Подставляем. Стандартное отклонение всех 10 баллов ≈ 7,9; p = q = 0,5, значит √(0,5 · 0,5) = 0,5.

r_pb = (78,4 − 63,8) / 7,9 × 0,5 = 14,6 / 7,9 × 0,5 ≈ 0,92

63,8 муж (0) 78,4 жен (1)
Рисунок 1 — Средний балл выше в группе с кодом 1 (женщины) → r_pb положительный

Получили r_pb ≈ 0,92 — сильная положительная связь. Тот же результат вы увидите, если вобьёте столбец кодов (1/0) и столбец баллов в калькулятор Пирсона: он же выдаст p-значение для проверки значимости.

Важно

Знак «+» здесь означает только то, что выше балл у группы, закодированной единицей (женщины). Закодируйте мужчин единицей — получите r_pb ≈ −0,92. Число силы то же, вывод по сути тот же, но в тексте обязательно укажите кодировку, иначе знак невозможно интерпретировать.

Что писать в дипломе

Готовые формулировки — подставьте свои числа и кодировку:

  • «Для оценки связи между полом (дихотомический признак) и баллом теста (количественный признак) использован точечно-бисериальный коэффициент корреляции r_pb».
  • «Женский пол кодировался значением 1, мужской — 0».
  • «Получено r_pb = 0,92 (p < 0,05), что свидетельствует о сильной положительной связи: у девушек балл стрессоустойчивости в среднем выше, чем у юношей».
  • «Связь между фактом прохождения подготовки и результатом теста оказалась умеренной (r_pb = 0,38; p < 0,05)».
Вывод

Минимальный набор для текста: какие переменные, как закодировали, значение r_pb, p-значение, словесная интерпретация знака и силы. Без кодировки знак повисает в воздухе.

Частые ошибки

  • Не указали кодировку. Без фразы «1 = …, 0 = …» знак r_pb нельзя прочитать. Это ошибка №1.
  • Искусственно дихотомизировали число. Поделили рост на «высокий/низкий» и считаете r_pb — нужна бисериальная корреляция, а лучше вообще не резать числа.
  • Закодировали тремя и более значениями. Три группы (низкий/средний/высокий) — это уже не дихотомия; берите дисперсионный анализ ANOVA или критерий Краскела-Уоллиса.
  • Путают силу и значимость. Большое r при крошечной выборке может быть случайным; всегда смотрите p-значение.
  • Делают вывод о причине. Корреляция — это связь, а не «пол влияет на балл». Пишите «связан с», а не «вызывает».

Частые вопросы

Чем точечно-бисериальная корреляция отличается от обычного Пирсона?

Ничем по сути — это тот же Пирсон, просто одна из переменных принимает только два значения (0 и 1). Отдельная формула и название нужны лишь для удобства и для корректного описания в методах.

Можно ли вместо неё взять t-критерий Стьюдента?

Да, они проверяют одну гипотезу. t-критерий Стьюдента сравнивает средние двух групп и отвечает «различия значимы?». r_pb отвечает «насколько тесная связь» и даёт величину эффекта. Часто в дипломе приводят оба.

Какими числами кодировать группы — обязательно 0 и 1?

Удобнее всего 0 и 1, но математически подойдёт любая пара чисел (например, 1 и 2) — модуль r не изменится. От выбора зависит только знак, поэтому 0/1 берут, чтобы не запутаться: единица = «есть признак / интересующая группа».

А если группы сильно разного размера?

Метод работает, но при очень неравных долях (например, 5% против 95%) величина r_pb «зажимается» и кажется маленькой даже при реальной разнице. В таком случае честнее опираться на сравнение средних (t-критерий Стьюдента) и отдельно отметить дисбаланс групп.

Нужна ли нормальность распределения?

Для самой оценки r_pb — нет. Но для проверки его значимости по стандартной формуле количественный признак желательно близок к нормальному. Проверить можно критерием Шапиро-Уилка; при сильных отклонениях надёжнее непараметрический критерий Манна-Уитни.

Короткий алгоритм

  1. Убедитесь, что один признак — естественная дихотомия, второй — числовой.
  2. Закодируйте группы: 1 = интересующая группа, 0 = другая. Запишите кодировку.
  3. Вбейте два столбца (коды и баллы) в калькулятор корреляции Пирсона.
  4. Прочитайте r_pb (сила по модулю, направление по знаку) и p-значение (значимость).
  5. Опишите словами: какая группа выше, насколько тесная связь, значима ли она.
Осторожно

Если групп больше двух или дихотомию вы «вырезали» из непрерывной шкалы — точечно-бисериальная корреляция не подходит. Для трёх и более групп — ANOVA / Краскел-Уоллис, для искусственной дихотомии — бисериальная корреляция.

Что ещё почитать

Не уверены, какой метод подходит под ваши переменные — загляните в базу методов или закажите консультацию.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.