Критерий хи-квадрат (χ²) Пирсона: полное руководство с примером
Хи-квадрат простыми словами: для каких данных, формула, степени свободы, таблица критических значений, разбор примера с таблицей сопряжённости, поправка Йейтса и FAQ.
Критерий χ² (хи-квадрат) Пирсона — главный метод для качественных данных в дипломах по психологии, педагогике, социологии и медицине. Его берут, когда у вас не баллы и не средние, а частоты: сколько человек попало в ту или иную категорию.
В этом руководстве разберём всё по порядку: что такое хи квадрат простыми словами, для каких данных он подходит, его виды, формула, степени свободы, таблица критических значений, пример с таблицей сопряжённости и частые ошибки.
Если нужно просто посчитать — воспользуйтесь онлайн-калькулятором критерия χ². А здесь — теория, чтобы уверенно защититься.
Что такое критерий хи-квадрат простыми словами
Критерий χ² Пирсона (хи-квадрат, англ. chi-squared test) — это непараметрический критерий для качественных (номинальных) данных. Он сравнивает то, что вы наблюдали в реальности, с тем, что ожидалось бы, если бы никакой закономерности не было.
Простыми словами он отвечает на вопрос: «Расхождение между фактическими и ожидаемыми частотами реальное или это просто случайность выборки?»
Ключевое отличие от Стьюдента и Вилкоксона: хи квадрат работает не со средними и не с рангами, а с частотами — абсолютным числом наблюдений в категориях (сколько мужчин и женщин, сколько «да» и «нет», сколько холериков и флегматиков).
Критерий назван по имени Карла Пирсона, предложившего его в 1900 году. В основе лежит распределение хи-квадрат — распределение суммы квадратов независимых стандартных нормальных величин; его форма зависит только от числа степеней свободы.
Для каких данных подходит хи-квадрат
Критерий применяют, когда выполнены условия:
- Данные номинальные (категориальные) — пол, тип темперамента, ответ «да/нет», группа крови, уровень (низкий/средний/высокий).
- На входе — частоты, то есть число наблюдений в каждой категории.
- Наблюдения независимы — один человек попадает строго в одну ячейку.
Хи квадрат считают только по абсолютным частотам. Нельзя подставлять в формулу проценты, доли или средние значения — это самая частая и грубая ошибка. 40 % и 40 человек дают совершенно разный χ².
Если данные — это баллы или измерения в единицах, критерий χ² не подходит: для средних берут Стьюдента, для рангов — Вилкоксона или Манна-Уитни. Что выбрать в спорном случае — в статье «Как выбрать статистический критерий» и в обзоре параметрических и непараметрических критериев.
Два вида критерия хи-квадрат
У χ² два основных применения — выбор зависит от того, что вы проверяете.
1. Критерий согласия
Критерий согласия хи квадрат проверяет, соответствует ли наблюдаемое распределение ожидаемому (теоретическому). Например: равномерно ли распределены ответы по четырём вариантам, или укладываются ли частоты в нормальное распределение.
2. Критерий независимости (однородности)
Критерий независимости хи квадрат проверяет, связаны ли два признака в таблице сопряжённости. Например: зависит ли предпочтение продукта от пола; различаются ли группы по доле «успешных». Если данные представлены как две выборки по одному признаку — это критерий однородности; математика та же.
Гипотезы критерия
- H₀ (нулевая): признаки независимы / наблюдаемое распределение совпадает с ожидаемым (расхождения случайны).
- H₁ (альтернативная): между признаками есть связь / распределение отличается от ожидаемого.
Если расчёт показал значимость (p < 0,05) — принимаем H₁: связь есть или распределение неслучайно.
Формула хи-квадрат
Считать вручную не обязательно — всё делает калькулятор. Но для понимания и для защиты суть знать полезно. Хи квадрат формула выглядит так:
χ² = Σ (O − E)² / E
где O (observed) — наблюдаемая частота в ячейке, E (expected) — ожидаемая частота. Сумма берётся по всем ячейкам.
Ожидаемую частоту для таблицы сопряжённости считают так:
E = (сумма по строке × сумма по столбцу) / общий итог
Логика простая: чем сильнее наблюдаемые частоты O отклоняются от ожидаемых E, тем больше χ² и тем меньше шанс, что расхождение случайно.
Для χ² действует прямое правило (в отличие от обратного у U и T): связь/различия значимы, когда χ²_эмп ≥ χ²_крит (p < 0,05). Чем больше эмпирическое значение, тем сильнее эффект.
Степени свободы хи-квадрат
Критическое значение χ² зависит от числа степеней свободы (df). Считают их так:
- для таблицы сопряжённости r×c:
df = (r − 1)(c − 1); - для критерия согласия:
df = k − 1(минус число оцениваемых параметров), где k — количество категорий.
Например, для таблицы 2×2: df = (2 − 1)(2 − 1) = 1. Для таблицы 2×3: df = (2 − 1)(3 − 1) = 2.
Алгоритм расчёта: как считать
Разберём шаги подробнее:
- Таблица частот. Сводим данные в таблицу: строки — один признак, столбцы — другой; в ячейках — число наблюдений.
- Ожидаемые частоты. Для каждой ячейки считаем E по итогам строки и столбца.
- Сумма. Для каждой ячейки находим (O − E)² / E и складываем — это χ²_эмп.
- Степени свободы. Считаем df и берём критическое значение из таблицы.
- Сравнение. Если χ²_эмп ≥ χ²_крит — связь или различия значимы.
Условия применения
Чтобы вывод был корректным, проверяют допущения:
- Ожидаемые частоты E ≥ 5 в каждой ячейке. Это главное условие.
- Для таблицы 2×2 при малых частотах применяют поправку Йейтса на непрерывность (она уменьшает χ² и делает оценку строже).
- При очень малых частотах (E < 5) χ² неприменим — используют точный критерий Фишера.
Поправка Йейтса меняет числитель формулы:
χ² = Σ (|O − E| − 0,5)² / E
Если ожидаемые частоты меньше 5, χ² завышает значимость. Для таблиц 2×2 с маленькими группами берите поправку Йейтса, а при совсем малых числах — точный тест Фишера или угловое преобразование Фишера φ* для сравнения долей.
Таблица критических значений хи-квадрат
Критическое значение χ²_крит зависит от числа степеней свободы df. Ниже — фрагмент таблицы хи квадрат для уровня значимости p = 0,05.
Таблица 1 — Критические значения χ² (p = 0,05)
| df | χ²_крит (p = 0,05) |
|---|---|
| 1 | 3,84 |
| 2 | 5,99 |
| 3 | 7,81 |
| 4 | 9,49 |
| 5 | 11,07 |
| 6 | 12,59 |
Например, для таблицы 2×2 (df = 1) критическое значение хи квадрат = 3,84: если χ²_эмп ≥ 3,84, связь значима. Полная таблица уже встроена в калькулятор χ² — он сам берёт нужное значение по вашему df.
Разбор примера с таблицей сопряжённости
Социолог опросил 100 человек: связан ли пол с предпочтением продукта (выбрали A или B). Получили такую таблицу хи квадрат.
Таблица 2 — Таблица сопряжённости: пол и предпочтение продукта (n = 100)
| Группа | Продукт A | Продукт B | Итого |
|---|---|---|---|
| Мужчины | 30 | 20 | 50 |
| Женщины | 20 | 30 | 50 |
| Итого | 50 | 50 | 100 |
Шаг 1. Ожидаемые частоты. E = (итог строки × итог столбца) / общий итог. Все строки и столбцы по 50, итог 100, значит для каждой ячейки:
E = (50 × 50) / 100 = 25
Шаг 2. Вклад каждой ячейки. В каждой ячейке (O − E)² / E = (±5)² / 25 = 25 / 25 = 1.
Шаг 3. Сумма по всем 4 ячейкам:
χ²_эмп = 1 + 1 + 1 + 1 = 4,0
Шаг 4. Степени свободы: df = (2 − 1)(2 − 1) = 1. По таблице χ²_крит(0,05; 1) = 3,84.
Шаг 5. Сравнение: 4,0 ≥ 3,84 → связь значима, p < 0,05.
На рисунке 2 видно, чем наблюдаемые частоты расходятся с ожидаемыми.
Вывод для диплома: «Предпочтение продукта статистически значимо связано с полом (χ² = 4,0; df = 1; p < 0,05): мужчины чаще выбирают продукт A, женщины — продукт B».
Критерий хи-квадрат в SPSS, Excel и онлайн
- В SPSS: «Анализ» → «Описательные статистики» → «Таблицы сопряжённости» → кнопка «Статистики» → отметить «Хи-квадрат». Программа выдаст значение, df и p (для 2×2 — сразу и поправку Йейтса).
- В Excel хи квадрат считают функцией
ХИ2.ТЕСТ(илиCHISQ.TEST) — она сразу возвращает p-значение по двум диапазонам (наблюдаемые и ожидаемые); само критическое значение даётХИ2.ОБР.ПХ. Ожидаемые частоты придётся посчитать вручную. - Онлайн проще всего: калькулятор χ² сам считает ожидаемые частоты, χ²_эмп, степени свободы, при необходимости применяет поправку Йейтса, выдаёт p и готовый вывод.
Частые ошибки
- Подставлять проценты или доли. χ² считают только по абсолютным частотам, иначе результат бессмыслен.
- Игнорировать условие E ≥ 5. При малых ожидаемых частотах нужна поправка Йейтса (для 2×2) или точный критерий Фишера.
- Применять к средним и баллам. Для количественных данных нужен Стьюдент, а не хи квадрат.
- Считать связанные наблюдения независимыми. Один человек должен попадать строго в одну ячейку.
- Путать значимость и силу связи. χ² говорит, есть ли связь, но не насколько она тесная — для силы считают коэффициент φ или V Крамера.
Частые вопросы
Что показывает критерий хи-квадрат простыми словами?
Насколько фактические частоты расходятся с ожидаемыми. Если расхождение слишком велико для случайности — между признаками есть связь или распределение неслучайно.
Можно ли применять хи-квадрат к процентам?
Нет. В формулу подставляют только абсолютные частоты (число наблюдений). Проценты сначала переводят обратно в количество человек.
Что такое степени свободы хи-квадрат?
Для таблицы r×c это (r − 1)(c − 1), для критерия согласия — число категорий минус 1. От df зависит критическое значение χ².
Когда нужна поправка Йейтса?
Для таблицы 2×2 при небольших частотах. Она уменьшает χ², делая оценку более строгой. При очень малых частотах вместо χ² берут точный критерий Фишера.
Чем хи-квадрат отличается от углового преобразования Фишера?
φ* Фишера сравнивает две доли и хорошо работает при малых выборках. Хи квадрат универсальнее: годится для таблиц любого размера и для критерия согласия.
Как понять, значим ли результат?
Сравните χ²_эмп с критическим значением по df. Если χ²_эмп ≥ χ²_крит (для df = 1 это 3,84) — связь значима, p < 0,05. Подробнее о пороге — в статье «Что такое p-значение».
Что ещё почитать
- Угловое преобразование Фишера (φ*) — сравнение долей, когда χ² не подходит.
- Как выбрать статистический критерий — какой метод под ваши данные.
- Параметрические и непараметрические критерии — место χ² среди методов.
- Что такое p-значение простыми словами — как читать результат.
Итог
Критерий χ² Пирсона — непараметрический метод для качественных (номинальных) данных, работающий с частотами. Бывает критерием согласия и критерием независимости. Формула: χ² = Σ (O − E)² / E, df = (r − 1)(c − 1). Связь значима, когда χ²_эмп ≥ χ²_крит (p < 0,05). Условие — ожидаемые частоты ≥ 5, иначе нужна поправка Йейтса или точный тест Фишера.
Посчитать свои данные за пару минут можно в калькуляторе критерия χ² — он сам найдёт ожидаемые частоты, подберёт критическое значение по df и оформит вывод. Полезно также заглянуть в базу методов, а если нужна вся статистика под ключ — поможет консультация эксперта.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию