ANOVA или t-критерий: что выбрать для сравнения групп
Когда сравнивать средние t-критерием Стьюдента, а когда — дисперсионным анализом ANOVA. Почему нельзя гонять много t-тестов на 3+ группах. С примерами, схемой и FAQ.
Вы сравниваете средние значения в нескольких группах — и встаёт вопрос: посчитать t-критерий Стьюдента или взять дисперсионный анализ (ANOVA)? Методы родственные, но путать их нельзя.
Ответ короче, чем кажется, и зависит в первую очередь от числа групп. Разберём, где проходит граница и почему нельзя «просто посчитать несколько t-тестов».
В двух словах
- t-критерий Стьюдента сравнивает средние двух групп.
- Дисперсионный анализ (ANOVA) сравнивает средние трёх и более групп сразу.
Главное правило: 2 группы → t-критерий; 3 и больше → ANOVA. Оба метода параметрические: им нужны числовые данные, нормальное распределение и (для независимых групп) однородность дисперсий.
Что выбрать — t-критерий или дисперсионный анализ — решает не сложность темы, а количество сравниваемых групп. Это первый и главный вопрос.
Когда брать t-критерий
t-критерий Стьюдента подходит, если все условия выполняются вместе:
- Вы сравниваете ровно две группы (или два замера).
- Данные — числовые измерения: вес, время, давление, баллы теста интеллекта в шкале IQ.
- Значения распределены близко к нормальному (проверьте нормальность).
- Для двух независимых групп — дисперсии однородны (примерно равный разброс).
Пример. Сравниваем уровень тревожности в контрольной и экспериментальной группах после тренинга. Две группы, баллы числовые, распределение нормальное → t-критерий для независимых выборок.
Подробный разбор расчёта и оформления — в руководстве по критерию Стьюдента.
Когда брать ANOVA
Дисперсионный анализ нужен, когда групп три или больше:
- сравниваете три и более независимых групп по одному числовому показателю;
- данные числовые и распределены нормально;
- разброс в группах примерно одинаков (однородность дисперсий).
Пример. Сравниваем эффективность трёх методик обучения: группа A, группа B и контроль. Три группы, успеваемость в баллах, распределение нормальное → однофакторная ANOVA.
ANOVA отвечает только на вопрос «различия где-то есть?». Чтобы узнать, какие именно группы отличаются, после значимой ANOVA применяют постхок-критерий (чаще всего — критерий Тьюки).
Как считать и описывать ANOVA в работе — в руководстве по дисперсионному анализу.
Чем отличаются по сути
- t-критерий берёт разницу двух средних и смотрит, велика ли она на фоне разброса внутри групп. Чем дальше средние друг от друга относительно «шума» — тем больше t и тем меньше p.
- ANOVA раскладывает общий разброс данных на две части: разброс между группами и разброс внутри групп. Если межгрупповой разброс заметно больше внутригруппового — значит, группы различаются. Эту пропорцию выражает F-критерий.
Простая логика: t смотрит на разницу двух средних, ANOVA — на соотношение «разброс между группами / разброс внутри групп» сразу для всех групп.
И ещё один факт, который многих удивляет: для двух групп t-критерий и ANOVA дают один и тот же результат. Они математически связаны соотношением F = t². То есть ANOVA — это обобщение t-критерия на любое число групп.
Важное замечание: нельзя заменять ANOVA пачкой t-тестов
Самая частая и самая опасная ошибка — сравнить три группы тремя попарными t-тестами (A–B, A–C, B–C) вместо одной ANOVA.
Почему так нельзя. Каждый t-тест допускает 5 % риск ложно объявить различие значимым (ошибка I рода при p < 0,05). Когда тестов несколько, эти риски накапливаются: на трёх сравнениях вероятность хотя бы одной ложной «находки» вырастает примерно до 14 %, а на пяти-шести — уже до трети. Вы почти гарантированно найдёте «значимое» различие там, где его нет.
Множественные попарные t-тесты раздувают вероятность ошибки I рода — ложного вывода «различия значимы». Для трёх и более групп это грубая методическая ошибка, которую сразу видит научный руководитель.
Правильный порядок для 3+ групп такой:
- Считаете ANOVA на всех группах сразу.
- Если ANOVA не значима (p > 0,05) — различий нет, останавливаетесь.
- Если ANOVA значима (p < 0,05) — применяете постхок-критерий Тьюки, который сравнивает группы попарно и при этом удерживает общий риск ошибки на уровне 5 %.
Так вы получаете и общий вывод, и корректные попарные сравнения — без раздувания ошибки.
Что писать в дипломе
Главный показатель после расчёта — p-значение (как его читать — в статье «Что такое p-значение»):
- p < 0,05 — различия статистически значимы;
- p > 0,05 — значимых различий нет.
Готовые формулировки:
- t-критерий: «Различия между группами статистически значимы (t = 2,7; p < 0,05)».
- ANOVA: «Влияние фактора на показатель значимо (F(2; 57) = 6,4; p < 0,01)». В скобках у F — две степени свободы: межгрупповая и внутригрупповая.
- После значимой ANOVA: «По критерию Тьюки группа A значимо превосходит контроль (p < 0,05), различия между A и B не значимы».
В таблице 1 — как одни и те же данные оформляются под каждый метод.
Таблица 1 — Чем t-критерий Стьюдента отличается от ANOVA
| Признак | t-критерий Стьюдента | Дисперсионный анализ (ANOVA) |
|---|---|---|
| Сколько групп | ровно 2 | 3 и более |
| Что сравнивает | два средних | средние всех групп сразу |
| Статистика | t | F (причём F = t² при 2 группах) |
| Тип данных | числовые | числовые |
| Допущения | нормальность, однородность дисперсий | нормальность, однородность дисперсий |
| После значимого результата | вывод готов | нужен постхок (Тьюки) |
| Непараметрический аналог | Манна-Уитни / Вилкоксон | Краскел-Уоллис / Фридман |
Как видно, методы построены на одних и тех же допущениях и отличаются прежде всего числом групп и тем, что после ANOVA нужен дополнительный шаг.
В тексте всегда указывайте сам критерий, его статистику (t или F), для F — обе степени свободы и p-значение. Без этого вывод «группы различаются» не считается доказанным.
А если данные ненормальные
t-критерий и ANOVA — параметрические. Если данные не проходят проверку на нормальность или это баллы и ранги, берут непараметрические аналоги:
- две группы: Манна-Уитни (независимые) или Вилкоксон (связанные);
- три и более групп: Краскел-Уоллис (независимые) или Фридман (связанные).
Логика та же: 2 группы — один метод, 3+ — другой. Подробнее о выборе между параметрическим и ранговым подходом — в статьях «Стьюдент или Манна-Уитни» и «ANOVA или Краскел-Уоллис».
Частые ошибки
- Сравнивать 3+ групп несколькими t-тестами. Это раздувает ошибку I рода — нужна ANOVA.
- Останавливаться на значимой ANOVA. Сама по себе она не говорит, какие группы отличаются — нужен постхок Тьюки.
- Применять t-критерий или ANOVA к баллам анкет без проверки нормальности. Для порядковых и ненормальных данных корректнее ранговые методы.
- Забывать про однородность дисперсий. Для независимых групп её проверяют (например, критерием Левена) до основного теста.
- Указывать F без степеней свободы. Формат F(df₁; df₂) обязателен.
Частые вопросы
Можно ли применить ANOVA к двум группам?
Можно — результат будет идентичен t-критерию, ведь F = t². Но для двух групп привычнее и нагляднее t-критерий, его и стоит указывать.
У меня три группы. Точно нельзя обойтись t-тестами?
Нельзя, если вы хотите корректный вывод. Три попарных t-теста завышают вероятность ложного «значимо» примерно до 14 %. Берите ANOVA, а попарные различия смотрите постхоком Тьюки.
Чем t-критерий и ANOVA отличаются от хи-квадрата?
t и ANOVA сравнивают средние числовых показателей. Хи-квадрат работает с частотами и категориями («сколько человек выбрали вариант А»). Это разные задачи.
Что делать, если дисперсии неоднородны?
Для двух групп есть поправка Уэлча к t-критерию, для нескольких — аналог ANOVA по Уэлчу. Если при этом нарушена и нормальность — переходите к ранговым методам (Манна-Уитни, Краскел-Уоллис).
Сколько нужно человек в каждой группе?
Жёсткого минимума нет, но для устойчивого результата желательно от 20–30 наблюдений в группе. На совсем малых выборках проверка нормальности ненадёжна, и безопаснее ранговые критерии.
ANOVA значима, а постхок ничего не находит — так бывает?
Да. ANOVA чувствительна к общей картине, а постхок строже к каждой паре. Тогда в выводе пишут, что общий эффект фактора значим, но надёжно выделить конкретные пары не удалось.
Короткий алгоритм
- Сколько групп сравниваете? Две → t-критерий. Три и больше → ANOVA.
- Данные числовые и нормальные? Если нет или это баллы — берите ранговые аналоги: Манна-Уитни для двух групп, Краскел-Уоллис для трёх и более.
- ANOVA получилась значимой (p < 0,05)? → примените постхок Тьюки, чтобы понять, какие именно группы отличаются.
Короче: 2 группы → t-критерий, 3+ → ANOVA. Несколько t-тестов вместо ANOVA — нельзя. После значимой ANOVA — постхок Тьюки. При ненормальности — ранговые аналоги.
Что ещё почитать
- Руководство по критерию Стьюдента — расчёт и оформление для двух групп.
- Руководство по дисперсионному анализу ANOVA — как считать и описывать для 3+ групп.
- ANOVA или Краскел-Уоллис — что брать, если данные ненормальные.
- Стьюдент или Манна-Уитни — параметрический и ранговый методы для двух групп.
- Калькулятор ANOVA и калькулятор критерия Стьюдента — посчитать онлайн.
Не уверены в выборе — загляните в базу методов или закажите консультацию: эксперт подберёт критерий и посчитает за вас.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию