Как доказать эффективность тренировочной программы статистикой
Почему «среднее выросло» — ещё не доказательство, и как через значимость, контрольную группу и размер эффекта показать, что программа сработала. С примерами и FAQ.
Вы придумали программу тренировок, провели её на группе студентов или спортсменов, замерили показатели до и после — и они выросли. Кажется, дело сделано: программа работает, можно писать вывод. Но научный руководитель возвращает главу со словами «а где доказательство?».
Дело в том, что «среднее стало больше» — это ещё не результат. Чтобы защитить эффективность программы, нужно показать три вещи: что изменения не случайны (значимость), что они достаточно большие (размер эффекта) и что их дала именно ваша программа, а не время, взросление или сезон (контрольная группа). Разберём по порядку, как это сделать и что нажать в калькуляторе.
В двух словах
Главное доказательство эффективности — это не рост среднего внутри группы, а сравнение приростов между вашей группой и контрольной.
- Сначала проверяете сдвиг внутри экспериментальной группы: критерий Вилкоксона (показатели «до» и «после» у одних и тех же людей).
- Затем — главное: считаете прирост (дельту) у каждого участника и сравниваете приросты двух групп критерием Манна-Уитни.
- В конце добавляете размер эффекта, чтобы показать не только «есть ли разница», но и «насколько она велика».
Если контрольной группы нет — расчёт всё равно делается, но вывод слабее: вы не сможете отделить эффект программы от эффекта времени.
Почему «среднее выросло» — не доказательство
Среднее значение легко вводит в заблуждение по двум причинам.
Причина первая — случайность. Любой показатель колеблется сам по себе. Если сегодня вы пробежали быстрее, чем месяц назад, это могло случиться и без всякой программы: выспались, настроение лучше, погода прохладнее. Статистический критерий как раз и отвечает на вопрос «такой сдвиг — это закономерность или просто повезло с замером?». Технически он считает p-значение — вероятность получить такой результат при условии, что на самом деле ничего не изменилось (подробнее в статье «Что такое p-значение»).
Причина вторая — посторонние факторы. Допустим, вы тренировали школьников полгода, и их выносливость выросла. Но за полгода они ещё и подросли, окрепли, прошли осень-зиму. Как понять, что прирост дала программа, а не календарь? Только сравнив их с такими же ребятами, которые занимались по обычной программе.
Рост среднего отвечает только на вопрос «стало ли по-другому». Защита эффективности отвечает на два других: «это закономерно?» (значимость) и «это заслуга программы?» (контрольная группа). Без них фраза «показатель улучшился» в дипломе не считается доказанной.
Дизайн исследования: КГ против ЭГ
Чтобы доказательство было сильным, нужны две группы.
- ЭГ — экспериментальная группа. Занимается по вашей новой программе.
- КГ — контрольная группа. Похожие люди, которые в это же время занимаются как обычно (или не занимаются вовсе).
Замеры делают четыре раза: «до» и «после» в каждой группе. Тогда у вас появляется честное сравнение: если в ЭГ прирост заметно больше, чем в КГ, — значит, разницу дала именно программа.
Очень важное условие — группы должны быть равны на старте. Если в ЭГ изначально собрались ребята покрепче, прирост будет нечестным. Поэтому перед началом сравните «до» обеих групп подходящим критерием и убедитесь, что разницы нет.
Перед экспериментом сравните стартовые показатели КГ и ЭГ критерием Манна-Уитни. Если p > 0,05 — группы равны, можно начинать, и в дипломе вы прямо пишете: «на этапе констатации значимых различий между группами не выявлено (U = …, p > 0,05)». Это снимает половину вопросов на защите.
Пример. Вы тестируете новую методику развития выносливости у легкоатлетов. В ЭГ (15 человек) — ваша программа с интервальными нагрузками, в КГ (15 человек) — обычные тренировки. До эксперимента средняя дистанция в тесте Купера у обеих групп почти одинаковая — старт честный.
Два уровня анализа
Это сердце всей главы. Анализ идёт в два шага, и путать их нельзя.
Шаг 1. Сдвиг внутри ЭГ — критерий Вилкоксона
Сначала вы доказываете, что внутри экспериментальной группы показатель действительно изменился. Берёте «до» и «после» у одних и тех же людей и считаете критерий Вилкоксона — он подходит для связанных замеров и не требует нормального распределения. Это удобно: показатели физиологических проб и баллы тестов часто распределены неровно.
Тот же расчёт полезно сделать и для КГ — чтобы увидеть, сдвинулась ли она. Часто в контрольной группе тоже есть небольшой рост (то самое «время»), и это нормально.
Пример. В ЭГ замерили индекс Руфье (чем меньше — тем лучше работает сердце) у 15 спортсменов до и после 8 недель программы. Медиана упала с 9,4 до 6,1. Вилкоксон дал T = 12 при критическом 25 — сдвиг значим (p < 0,05). Вывод первого шага: внутри ЭГ изменения есть.
Здесь кроется ловушка. Значимый сдвиг внутри ЭГ — это ещё не доказательство эффективности программы. В КГ за то же время показатель тоже мог значимо вырасти. Доказывает программу только следующий шаг — сравнение приростов.
Шаг 2. Сравнение приростов — критерий Манна-Уитни
Это и есть главное доказательство. Логика простая: посчитайте, на сколько изменился показатель у каждого человека, и сравните эти изменения между группами.
- У каждого участника считаете дельту: «после − до». Это его личный прирост.
- Получаете два набора дельт — приросты ЭГ и приросты КГ.
- Сравниваете их критерием Манна-Уитни (он для двух независимых групп).
Если прирост в ЭГ статистически значимо больше, чем в КГ, — вы доказали, что разницу дала программа, а не время.
Пример. В том же исследовании по индексу Руфье медиана улучшения в ЭГ составила −3,3 балла, а в КГ всего −0,8. Манна-Уитни по дельтам дал U = 34, p < 0,05. Вот теперь вывод честный: программа эффективнее обычных тренировок, потому что прирост в ЭГ значимо больше.
Запомните связку: Вилкоксон — доказать, что в ЭГ есть сдвиг; Манна-Уитни по дельтам — доказать, что этот сдвиг больше, чем у контрольной группы. Второй шаг и есть настоящее доказательство эффективности.
Размер эффекта: насколько сильно сработало
Значимость говорит «разница есть», но не говорит «насколько она большая». На больших выборках даже крошечный, практически бесполезный сдвиг может оказаться «значимым». Поэтому к p-значению добавляют размер эффекта — число, которое показывает силу изменений.
- Для сравнения двух групп считают d Коэна: примерно 0,2 — слабый эффект, 0,5 — средний, 0,8 и выше — сильный.
- Для непараметрических критериев (Вилкоксон, Манна-Уитни) удобна r — её можно получить прямо из расчёта.
Как это читается в дипломе: «прирост в ЭГ значимо выше (U = 34, p < 0,05), размер эффекта большой (d = 0,9)» — звучит убедительнее, чем сухое «различия значимы». Подробно всё разобрано в статье «Размер эффекта и d Коэна».
Размер эффекта не зависит от числа испытуемых, поэтому его особенно ценят на защите: он показывает практическую пользу программы, а не просто математический факт «различия есть». Если эффект слабый (d около 0,2), честно об этом напишите — это нормально и говорит о вашей научной аккуратности.
Пример с таблицей и диаграммой
Соберём всё вместе на примере с индексом Руфье (оценка работы сердца под нагрузкой; чем меньше индекс, тем лучше). Результаты сравнения двух групп удобно свести в одну таблицу — как в таблице 1.
Таблица 1 — Динамика индекса Руфье в КГ и ЭГ и сравнение приростов (n = 30)
| Группа | Me до | Me после | Сдвиг внутри группы (Вилкоксон) | Me прироста (Δ) |
|---|---|---|---|---|
| КГ (n = 15) | 9,2 | 8,4 | T = 41, p > 0,05 — незначим | −0,8 |
| ЭГ (n = 15) | 9,4 | 6,1 | T = 12, p < 0,05 — значим | −3,3 |
| Сравнение приростов (Манна-Уитни) | — | — | U = 34, p < 0,05 — ЭГ лучше | — |
Что говорит таблица словами: в контрольной группе показатель почти не изменился (сдвиг незначим), а в экспериментальной значимо улучшился. Главное — прирост в ЭГ значимо больше, чем в КГ (U = 34, p < 0,05). Значит, эффект дала именно программа. Те же медианы «до» и «после» для обеих групп наглядно показаны на рисунке 1.
Тот же приём работает для любых показателей. Если вы меряете VO₂max через тест Купера или работоспособность через пробу PWC-170, логика та же: дельты по каждому участнику, затем Манна-Уитни между группами.
Что писать в дипломе
Готовые формулировки, которые можно подставить под свои числа.
- Про равенство на старте: «На констатирующем этапе значимых различий между КГ и ЭГ по индексу Руфье не выявлено (U = 98, p > 0,05), группы сопоставимы».
- Про сдвиг внутри ЭГ: «В экспериментальной группе показатель значимо улучшился: медиана снизилась с 9,4 до 6,1 (критерий Вилкоксона, T = 12, p < 0,05)».
- Про контрольную группу: «В контрольной группе значимых изменений не выявлено (T = 41, p > 0,05)».
- Главный вывод (сравнение приростов): «Прирост показателя в ЭГ статистически значимо превышает прирост в КГ (критерий Манна-Уитни, U = 34, p < 0,05), что подтверждает эффективность предложенной программы».
- Про силу эффекта: «Размер эффекта большой (r = 0,52), различия имеют практическую значимость».
В каждой формулировке обязательно указывайте сам критерий, его статистику (T или U), число наблюдений и p-значение. Без этих цифр вывод «программа эффективна» считается голословным.
Частые ошибки
- Доказывать эффективность только ростом среднего в ЭГ. Это первый шаг, а не доказательство. Нужно сравнение приростов с контрольной группой.
- Сравнивать «после ЭГ» с «после КГ» напрямую. Так вы игнорируете стартовые различия. Сравнивать нужно приросты (дельты), а не конечные значения.
- Не проверить равенство групп на старте. Если ЭГ изначально сильнее, весь эксперимент под вопросом.
- Брать связанный критерий для двух групп. Вилкоксон — для «до/после» у одних людей; для сравнения ЭГ и КГ нужен Манна-Уитни (это независимые группы).
- Забыть про размер эффекта. Значимость без него отвечает только на половину вопроса.
- Применять критерий Стьюдента к ненормальным данным. Физиологические индексы и баллы часто ненормальны — безопаснее непараметрика. Про выбор — статья «Параметрические и непараметрические критерии».
Частые вопросы
А можно без контрольной группы?
Можно, но доказательство будет слабым. Без КГ вы покажете только сдвиг внутри ЭГ (Вилкоксоном) и не сможете доказать, что его дала именно программа, а не время или взросление. Если КГ собрать никак нельзя, честно опишите это как ограничение исследования.
Почему нельзя просто сравнить «после» в двух группах?
Потому что группы могли стартовать с разных уровней. Представьте, что ЭГ была чуть слабее на старте, но программа их подтянула — а по конечным значениям они всё равно ниже КГ. Сравнение «после с после» это упустит. Поэтому сравнивают именно приросты (дельты).
Что если данные нормальные — можно параметрику?
Да. Если распределение приростов близко к нормальному (проверьте Шапиро-Уилком), вместо Вилкоксона берут парный критерий Стьюдента, а вместо Манна-Уитни — независимый Стьюдента. Логика двух шагов остаётся той же. Какой выбрать — подскажет статья «Стьюдент или Манна-Уитни».
А если замеров три (до, в середине, после)?
Для трёх и более связанных замеров внутри группы берут критерий Фридмана вместо Вилкоксона. Для сравнения трёх и более групп — критерий Краскела-Уоллиса вместо Манна-Уитни.
Сколько человек нужно в каждой группе?
Чёткого минимума нет, но для непараметрических критериев желательно хотя бы 12–15 человек в группе — иначе мощности не хватит, и реальный эффект можно не заметить. Подробно — в статье «Сколько респондентов нужно для диплома».
Короткий алгоритм
- Соберите две группы — ЭГ и КГ — и убедитесь, что на старте они равны (Манна-Уитни, p > 0,05).
- Сделайте замеры «до» и «после» в обеих группах.
- Докажите сдвиг внутри ЭГ: Вилкоксон по «до/после».
- Посчитайте дельты («после − до») у каждого участника обеих групп.
- Сравните приросты ЭГ и КГ: Манна-Уитни — это главное доказательство.
- Добавьте размер эффекта и оформите таблицу с выводом.
Что ещё почитать
- Размер эффекта и d Коэна — как показать силу изменений, а не только их наличие.
- Стьюдент или Вилкоксон: что выбрать — какой критерий брать для «до/после».
- Стьюдент или Манна-Уитни — как сравнивать две независимые группы.
- Что такое p-значение простыми словами — как правильно прочитать результат.
- Калькулятор Вилкоксона и калькулятор Манна-Уитни — посчитать оба шага онлайн.
Не уверены, как построить дизайн или какой критерий взять, — загляните в базу методов или закажите консультацию: эксперт поможет с расчётами и формулировками для вашей работы.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию