Различия статистически не значимы (p > 0,05): что делать
Получили p > 0,05 и различия не значимы — что делать и как честно описать это в дипломе. Размер эффекта, мощность, причины, с примерами и FAQ.
Вы прогнали критерий, ждали красивую звёздочку «p < 0,05» — а получили p = 0,18. Различий нет. Кажется, что вся работа насмарку.
Спокойно. Отрицательный результат — это тоже результат, и его абсолютно нормально защищать. Главное — честно описать, а не подгонять.
В двух словах
Если различия статистически не значимы (p > 0,05), это значит одно: ваши данные не дали достаточно оснований утверждать, что эффект есть. Это не «эксперимент провалился» и не «вы ошиблись».
Что делать по шагам: (1) посчитать размер эффекта, чтобы понять, мал эффект или его правда нет; (2) прикинуть мощность и размер выборки; (3) честно сформулировать вывод в дипломе. Пересчитать сам критерий и p-значение можно в базе методов — например, критерий Стьюдента или Вилкоксона.
Что вообще означает p > 0,05
p-значение — это вероятность получить такие (или ещё большие) различия чисто случайно, если на самом деле разницы нет. Подробный разбор — в статье «Что такое p-значение».
Порог 0,05 — это граница, которую вы сами назначили заранее. Если p получилось больше — вы не отвергаете нулевую гипотезу (гипотезу «различий нет»).
«Не отвергли» ≠ «доказали, что различий нет». Это ключевая мысль. Вы не нашли эффект — но это не то же самое, что доказать его отсутствие. Возможно, эффект есть, просто ваши данные его «не разглядели».
Поэтому формулировка «мы доказали, что методика не работает» — ошибка. Правильно: «значимых различий не выявлено».
Почему различий могло не оказаться
Причин обычно три, и важно понимать, какая ваша.
Эффекта действительно нет. Самый честный вариант: программа/методика не дала отличия от контроля. Это нормальный научный результат.
Маленькая выборка. Чем меньше людей, тем труднее «поймать» даже реальный эффект. На 8 + 8 испытуемых уловить можно только очень большую разницу.
Низкая мощность исследования. Мощность — это шанс заметить эффект, если он есть. При малой выборке и слабом эффекте мощность низкая, и не значимый результат почти запрограммирован заранее.
Высокий разброс данных (большое стандартное отклонение) работает так же, как маленькая выборка: «шум» заглушает сигнал. Иногда не значимость — это просто очень неоднородная группа.
Размер эффекта: главный шаг при p > 0,05
p-значение говорит «есть различие или нет», но ничего не говорит о его величине. Поэтому при p > 0,05 обязательно считают размер эффекта — например, d Коэна для сравнения средних.
d = (M₁ − M₂) / SD_общее
где M₁, M₂ — средние двух групп, SD_общее — объединённое стандартное отклонение. Ориентиры: d ≈ 0,2 — маленький эффект, 0,5 — средний, 0,8 — большой. Подробно — в статье «Размер эффекта (d Коэна)».
Зачем это нужно? Размер эффекта помогает отличить две очень разные ситуации:
Таблица 1 — Как читать связку «p + размер эффекта»
| p-значение | Размер эффекта d | Что это значит | Что писать |
|---|---|---|---|
| p > 0,05 | d ≈ 0,05 | эффекта почти нет | различий нет, и они вряд ли есть |
| p > 0,05 | d ≈ 0,5 | эффект средний, но выборка мала | «есть тенденция», нужна выборка крупнее |
| p < 0,05 | d ≈ 0,1 | значимо, но эффект крошечный | значимо «на бумаге», практически неважно |
Вывод словами: если p > 0,05 и d близко к нулю — эффекта правда нет. А если p > 0,05, но d средний или большой — скорее всего, вам просто не хватило людей, и это сильный аргумент в обсуждении.
Что писать в дипломе
Отрицательный результат описывают спокойно и корректно. Готовые формулировки — подставьте свои числа:
- «Статистически значимых различий между группами не выявлено (t = 1,12; p = 0,27 > 0,05)».
- «Различия между показателями до и после эксперимента не достигли уровня статистической значимости (T = 64; p > 0,05)».
- «Размер эффекта составил d = 0,18, что соответствует малой величине; таким образом, наблюдаемые различия не имеют ни статистической, ни практической значимости».
- «Несмотря на отсутствие значимых различий, отмечена тенденция к улучшению показателя в экспериментальной группе (d = 0,46); вероятно, для её подтверждения необходима выборка большего объёма».
Слово «тенденция» уместно при 0,05 < p < 0,10 и заметном размере эффекта. Это честный способ сказать «кое-что есть, но доказать строго не вышло». Не злоупотребляйте: при p = 0,6 никакой тенденции нет.
В разделе «ограничения исследования» прямо назовите причину: малый объём выборки, большой разброс, короткий срок воздействия. Это не слабость работы, а признак зрелого автора.
Чего делать нельзя
Соблазн «дотянуть» результат до значимости велик, но это уже подгонка данных, и научный руководитель такое видит.
Нельзя «играть» с порогом и методами, пока p не станет меньше 0,05. Перебирать критерии, выкидывать «неудобных» испытуемых, добирать людей до тех пор, пока не «выстрелит», менять порог на 0,1 задним числом — всё это фальсификация. Один критерий и один порог выбираются до анализа.
Не выбрасывайте «выбросы» только потому, что без них p становится красивее. Удаление наблюдений допустимо лишь по заранее заявленному правилу (например, явная ошибка измерения), и об этом нужно написать.
И не маскируйте отрицательный результат: «различия практически значимы», «прослеживается явная динамика» при p = 0,5 — это вода, за которую снижают оценку.
Развёрнутый пример
Вы сравнивали уровень тревожности в контрольной (n = 12) и экспериментальной (n = 12) группах после тренинга. Получили: M_контр = 48, M_эксп = 43, SD ≈ 11. Прогнали критерий Стьюдента: t = 1,11, p = 0,28.
Различия не значимы. Считаем размер эффекта:
d = (48 − 43) / 11 ≈ 0,45
Эффект средний (близко к 0,5), но при выборке 12 + 12 мощности не хватило. Вывод для диплома: «Значимых различий не выявлено (t = 1,11; p = 0,28), однако размер эффекта (d = 0,45) указывает на тенденцию к снижению тревожности в экспериментальной группе; для статистического подтверждения требуется бóльшая выборка».
Это сильный, честный финал: вы не выдаёте желаемое за действительное, но и не закапываете реальную тенденцию.
Частые ошибки
- Писать «доказали, что различий нет». Правильно — «значимых различий не выявлено».
- Не считать размер эффекта. Без d вы не отличите «эффекта нет» от «выборка мала».
- Подгонять данные перебором критериев, удалением испытуемых, сдвигом порога.
- Менять порог 0,05 на 0,1 задним числом. Порог фиксируется заранее.
- Считать работу проваленной. Отрицательный результат — полноценный научный итог.
- Раздувать «тенденцию» при большом p. При p = 0,5 никакой тенденции нет.
Частые вопросы
Можно ли защитить диплом, если различия не значимы?
Да, и это обычная ситуация. Главное — корректно сформулировать вывод, посчитать размер эффекта и честно назвать ограничения. Отрицательный результат показывает, что вы умеете работать со статистикой, а не подгонять её.
p = 0,06 — это значимо или нет?
Формально нет: 0,06 > 0,05, нулевую гипотезу не отвергаем. Но при заметном размере эффекта это пограничный случай, который корректно описать как тенденцию (0,05 < p < 0,10) и указать, что выборки могло не хватить.
Можно ли поменять порог на 0,1, чтобы результат стал значимым?
Нет, если вы изначально заявили 0,05. Порог выбирается до анализа и не двигается ради нужного результата. Уровень 0,10 иногда применяют в поисковых исследованиях, но это решают заранее и обосновывают, а не подгоняют постфактум.
Что важнее — p-значение или размер эффекта?
Они отвечают на разные вопросы. p — «есть ли различие в принципе», размер эффекта — «насколько оно большое». В современной науке всё чаще требуют указывать оба, особенно когда p > 0,05.
Как понять, не была ли мала выборка?
Косвенно: если размер эффекта средний/большой, а p всё равно > 0,05 — почти наверняка не хватило людей. Точнее это оценивает анализ статистической мощности: при мощности ниже 0,8 не значимый результат был во многом предрешён.
Короткий алгоритм
- Зафиксируйте факт: p > 0,05, нулевую гипотезу не отвергаем.
- Посчитайте размер эффекта (d Коэна) — мал он или средний/большой.
- Решите по таблице 1: эффекта нет — или просто не хватило выборки.
- Сформулируйте вывод честно: «значимых различий не выявлено» (+ «тенденция», если уместно).
- В «ограничениях» назовите причину: объём выборки, разброс, срок воздействия.
Коротко: p > 0,05 → считаем размер эффекта → честный вывод. Не значимо — не значит «провал»; значит «не хватило оснований утверждать, что эффект есть». Никакой подгонки.
Что ещё почитать
- Что такое p-значение — как читать ту самую цифру и порог 0,05.
- Размер эффекта (d Коэна) — главный показатель при p > 0,05.
- Статистическая мощность — почему малая выборка прячет эффект.
- Критерий Стьюдента онлайн — пересчитать сравнение средних.
- Критерий Вилкоксона онлайн — для сравнения «до/после».
Не уверены, правильно ли описали отрицательный результат — загляните в базу методов или закажите консультацию: поможем сформулировать вывод честно и грамотно.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.