StatBlank
Основы12 июня 2026·11 мин чтения

Множественные сравнения и поправка Бонферрони простыми словами

Почему много тестов подряд раздувают шанс случайной «находки» и как поправка Бонферрони (α/k) это лечит. Разбираем на числовых примерах, с таблицей и FAQ.

Вы сравнили не две группы, а сразу несколько — или прогнали один тест по десятку шкал анкеты. И где-то выскочило заветное «p < 0,05». Вопрос: это реальная находка или просто повезло?

Чем больше тестов вы делаете подряд, тем выше шанс, что хотя бы один «значимый» результат окажется случайным. Эта ловушка называется проблемой множественных сравнений, и чаще всего её лечат поправкой Бонферрони. Разберём, как это работает и когда нужно.

В двух словах

  • Проблема. Каждый тест с α = 0,05 может ошибочно «найти» эффект в 5% случаев. Делаете много тестов — ошибки накапливаются, и ложная находка почти гарантирована.
  • Поправка Бонферрони. Делим уровень значимости на число сравнений: новый порог = α / k. Теперь значимым считается только p меньше этого строгого порога.
  • Когда нужна. Чаще всего — для попарных сравнений после значимого критерия Краскела-Уоллиса или дисперсионного анализа ANOVA, а также когда вы проверяете сразу много шкал или гипотез.

Это прямое продолжение темы ошибок I рода — если вы её ещё не читали, загляните в статью «Ошибки I и II рода».

Откуда берётся проблема

Когда вы ставите порог p < 0,05, вы заранее соглашаетесь: в 5% случаев тест объявит различие там, где его на самом деле нет. Это ошибка I рода — ложная тревога. Для одного теста 5% — приемлемый риск.

Но риск считается на каждый тест отдельно. Сделали два теста — у каждого свои 5%. Десять тестов — десять попыток случайно «попасть». И вероятность, что хотя бы одна из них сработает вхолостую, быстро растёт.

Посчитаем честно. Если все гипотезы на самом деле пустые (различий нет), вероятность, что ни один из k тестов не даст ложной тревоги, равна 0,95 в степени k. Значит, вероятность хотя бы одной ошибки — это единица минус 0,95^k.

Пример. Вы сравниваете 4 группы попарно — это 6 пар. Вероятность хотя бы одной ложной находки: 1 − 0,95⁶ ≈ 0,26. То есть в каждом четвёртом таком исследовании вы «найдёте» различие, которого нет.

А теперь любимый учебный пример. Представьте, что вы прогнали 20 тестов на данных, где эффектов нет вообще. В среднем 20 × 0,05 = 1 тест покажет «p < 0,05» просто по случайности. Один ложный результат на двадцатку — почти наверняка.

Осторожно

Это и есть главная ловушка дипломных расчётов: студент гоняет один критерий по всем шкалам опросника, радостно находит «значимую» шкалу и строит на ней выводы. А найденное различие — статистический шум.

Как накапливается риск

Чтобы увидеть масштаб, посмотрите, как растёт вероятность хотя бы одной ложной тревоги с числом тестов (при α = 0,05 и реально пустых гипотезах). Цифры — в таблице 1.

Таблица 1 — Вероятность хотя бы одной ложной находки при k независимых тестах (α = 0,05)

Число тестов k Формула 1 − 0,95^k Вероятность ложной тревоги
1 1 − 0,95¹ 5%
3 1 − 0,95³ 14%
5 1 − 0,95⁵ 23%
10 1 − 0,95¹⁰ 40%
20 1 − 0,95²⁰ 64%

Вывод словами: уже при 10 тестах шанс случайно «найти» несуществующий эффект — около 40%, а при 20 — почти две трети. Поэтому серию сравнений нельзя оценивать по тому же порогу 0,05, что и одиночный тест.

риск 5% 1 14% 3 23% 5 40% 10 64% 20 число тестов k
Рисунок 1 — Чем больше тестов подряд, тем выше шанс случайной «находки»

Что такое поправка Бонферрони

Идея простая до неприличия: если вы делаете k сравнений и хотите, чтобы суммарный риск ложной тревоги остался на уровне 0,05, сделайте каждый отдельный тест строже. Поделите уровень значимости на число сравнений.

Новый порог = α / k.

То есть значимым теперь считается не любое p < 0,05, а только p меньше нового, ужесточённого порога. Сравнений много — порог жёстче, случайному результату труднее «проскочить».

Пример. Вы делаете 5 попарных сравнений после ANOVA. Бонферрони: 0,05 / 5 = 0,01. Значит, пару считаем различающейся, только если её p < 0,01. Результат с p = 0,03 при одиночном тесте был бы «значимым», а здесь — нет.

Есть и эквивалентный способ, который иногда удобнее: не трогать порог, а умножить каждое p на k и сравнивать уже с обычными 0,05. Результат тот же. Например, p = 0,008 при 5 сравнениях превращается в 0,008 × 5 = 0,04 — всё ещё значимо.

Заметка

k — это число сравнений (тестов), а не число групп. Для 4 групп попарных сравнений будет 6 (каждая с каждой), для 5 групп — 10. Считайте именно пары, иначе поправка получится неверной.

Когда поправка действительно нужна

Поправка Бонферрони — не украшение к каждому расчёту. Она нужна там, где вы делаете серию проверок и хотите контролировать общий риск ошибки. Типичные ситуации:

  • Постхок после Краскела-Уоллиса или ANOVA. Сам критерий Краскела-Уоллиса или ANOVA говорит только «различия где-то есть». Чтобы узнать, между какими именно группами, вы делаете попарные сравнения — и вот их-то и поправляют.
  • Много шкал одного опросника. Прогоняете один критерий по 8 шкалам — это 8 тестов, риск накопился.
  • Несколько гипотез в одной работе. Проверяете сразу пачку независимых предположений на одних данных.

Важный порядок действий: сначала смотрите на общий критерий (Краскел-Уоллис, ANOVA, критерий Фридмана). Если он не значим — попарные сравнения вообще не делают, и поправка не нужна. Лезть в пары имеет смысл, только когда общий тест показал, что различия есть.

А если у вас всего одно запланированное сравнение двух групп — никакой поправки не требуется. Один тест — один порог 0,05.

Числовой пример от начала до конца

Допустим, вы сравниваете уровень тревожности в трёх группах студентов (по шкале Спилбергера-Ханина): первокурсники, второкурсники, третьекурсники. Данные — баллы, поэтому берёте Краскела-Уоллиса.

Шаг 1. Общий критерий дал p = 0,02 < 0,05 — различия между курсами есть. Идём искать, где именно.

Шаг 2. Три группы — значит, 3 пары: 1–2, 1–3, 2–3. Считаем для каждой пары Манна-Уитни и получаем три p-значения.

Шаг 3. Применяем Бонферрони: порог = 0,05 / 3 ≈ 0,017. Сравниваем каждое p с ним. Что получилось — в таблице 2.

Таблица 2 — Попарные сравнения курсов с поправкой Бонферрони (k = 3)

Пара групп p без поправки Порог α/k = 0,017 Вывод
1 курс — 2 курс 0,041 0,017 различий нет (0,041 > 0,017)
1 курс — 3 курс 0,004 0,017 различие значимо (0,004 < 0,017)
2 курс — 3 курс 0,210 0,017 различий нет

Вывод словами: без поправки пара «1–2 курс» (p = 0,041) выглядела бы значимой, но после Бонферрони она не проходит строгий порог. Реально различаются только первокурсники и третьекурсники.

Совет

Не хотите считать поправку руками? Найдите самый строгий порог α/k один раз и просто сравнивайте с ним все свои p-значения. Сами p при этом не меняются — меняется только планка, выше которой результат считается случайным.

Минусы: за строгость приходится платить

У Бонферрони есть обратная сторона. Делая порог жёстче, вы снижаете риск ложной тревоги (ошибки I рода), но одновременно повышаете риск пропустить реальный эффект — это ошибка II рода, и мощность теста падает.

Чем больше сравнений, тем суровее порог. При 20 тестах он становится 0,05 / 20 = 0,0025 — поймать настоящее, но скромное различие под такой планкой почти невозможно.

Поэтому Бонферрони называют консервативной поправкой: она перестраховывается. Для 3–6 сравнений это нормально и общепринято. Но если сравнений десятки, существуют более мягкие методы (Холма, Бенджамини-Хохберга) — в дипломе их обычно достаточно упомянуть, а считать по-прежнему через простой Бонферрони.

Вывод

Баланс такой: мало сравнений (3–6) — смело берите Бонферрони, он прост и понятен комиссии. Очень много сравнений — поправка станет слишком жёсткой, и честнее сократить число гипотез заранее, чем потом тонуть в строгом пороге.

Что писать в дипломе

Главное — показать, что вы знаете про накопление ошибки и учли его. Готовые формулировки:

  • «При попарном сравнении групп применялась поправка Бонферрони: уровень значимости делился на число сравнений (α/k = 0,05/3 ≈ 0,017)».
  • «Различия между группами оценивались критерием Краскела-Уоллиса (H = 7,8; p = 0,02); апостериорные попарные сравнения проводились по критерию Манна-Уитни с поправкой Бонферрони».
  • «С учётом поправки на множественные сравнения статистически значимым считалось p < 0,017».

В таблице результатов удобно привести и исходное p, и поправленный порог (как в таблице 2) — тогда комиссии сразу видно, что находки не случайны.

Частые ошибки

  • Гонять критерий по всем шкалам и не поправлять порог. Классика: 10 шкал, «нашли» одну значимую и забыли, что это могла быть случайность. Нужна поправка.
  • Делить α на число групп, а не на число сравнений. Для 4 групп пар не 4, а 6. Считайте именно пары.
  • Делать попарные сравнения при незначимом общем тесте. Если Краскел-Уоллис или ANOVA не показали различий, в пары лезть не нужно.
  • Применять Бонферрони к единственному запланированному сравнению. Один тест поправлять не надо — порог остаётся 0,05.
  • Молча применить поправку и не написать об этом. Обязательно укажите метод и итоговый порог в тексте работы.

Частые вопросы

Зачем вообще делить альфу — разве 0,05 не достаточно?

0,05 — это риск ошибки на один тест. Когда тестов много, их риски складываются, и суммарная вероятность ложной находки сильно превышает 5%. Деление возвращает общий риск к исходному уровню.

Бонферрони нужен всегда после ANOVA или Краскела-Уоллиса?

Только если общий критерий оказался значимым и вы делаете попарные сравнения. Если общий тест не значим, постхок-сравнения не проводят и поправка не требуется.

На сколько делить, если сравниваю 4 группы?

На число пар, а не групп. Для 4 групп это 6 пар (каждая с каждой), поэтому порог = 0,05 / 6 ≈ 0,008.

Поправка меняет сами p-значения?

В классическом варианте — нет, меняется только порог, с которым вы их сравниваете (α/k). Эквивалентный способ — умножить каждое p на k и сравнивать с 0,05; результат одинаковый.

Чем плох слишком строгий порог?

Падает мощность: становится легко пропустить реальное различие (ошибка II рода). Поэтому при большом числе сравнений Бонферрони бывает чрезмерно консервативным — см. «Ошибки I и II рода».

А что вообще такое это p-значение?

Это вероятность получить такие (или ещё более выраженные) различия, если на самом деле их нет. Подробно и на пальцах — в статье «Что такое p-значение».

Короткий алгоритм

  1. Сначала общий тест: Краскел-Уоллис или ANOVA. Не значим — стоп, попарных сравнений нет.
  2. Значим — делаете попарные сравнения и считаете их число k (для 3 групп — 3 пары, для 4 — 6).
  3. Новый порог = 0,05 / k. Значимыми считаете только пары с p меньше этого порога. Метод и порог укажите в дипломе.

Что ещё почитать

Не уверены, нужна ли поправка и как её оформить — загляните в базу методов или закажите консультацию: эксперт подберёт критерий, посчитает постхок и оформит таблицы под ключ.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.

Заказать консультацию