Практика12 июня 2026·12 мин чтения

Как доказать эффективность тренировочной программы статистикой

Почему «среднее выросло» — ещё не доказательство, и как через значимость, контрольную группу и размер эффекта показать, что программа сработала. С примерами и FAQ.

Вы придумали программу тренировок, провели её на группе студентов или спортсменов, замерили показатели до и после — и они выросли. Кажется, дело сделано: программа работает, можно писать вывод. Но научный руководитель возвращает главу со словами «а где доказательство?».

Дело в том, что «среднее стало больше» — это ещё не результат. Чтобы защитить эффективность программы, нужно показать три вещи: что изменения не случайны (значимость), что они достаточно большие (размер эффекта) и что их дала именно ваша программа, а не время, взросление или сезон (контрольная группа). Разберём по порядку, как это сделать и что нажать в калькуляторе.

В двух словах

Главное доказательство эффективности — это не рост среднего внутри группы, а сравнение приростов между вашей группой и контрольной.

Сначала проверяете сдвиг внутри экспериментальной группы: критерий Вилкоксона (показатели «до» и «после» у одних и тех же людей).
Затем — главное: считаете прирост (дельту) у каждого участника и сравниваете приросты двух групп критерием Манна-Уитни.
В конце добавляете размер эффекта, чтобы показать не только «есть ли разница», но и «насколько она велика».

Если контрольной группы нет — расчёт всё равно делается, но вывод слабее: вы не сможете отделить эффект программы от эффекта времени.

Почему «среднее выросло» — не доказательство

Среднее значение легко вводит в заблуждение по двум причинам.

Причина первая — случайность. Любой показатель колеблется сам по себе. Если сегодня вы пробежали быстрее, чем месяц назад, это могло случиться и без всякой программы: выспались, настроение лучше, погода прохладнее. Статистический критерий как раз и отвечает на вопрос «такой сдвиг — это закономерность или просто повезло с замером?». Технически он считает p-значение — вероятность получить такой результат при условии, что на самом деле ничего не изменилось (подробнее в статье «Что такое p-значение»).

Причина вторая — посторонние факторы. Допустим, вы тренировали школьников полгода, и их выносливость выросла. Но за полгода они ещё и подросли, окрепли, прошли осень-зиму. Как понять, что прирост дала программа, а не календарь? Только сравнив их с такими же ребятами, которые занимались по обычной программе.

Важно

Рост среднего отвечает только на вопрос «стало ли по-другому». Защита эффективности отвечает на два других: «это закономерно?» (значимость) и «это заслуга программы?» (контрольная группа). Без них фраза «показатель улучшился» в дипломе не считается доказанной.

Дизайн исследования: КГ против ЭГ

Чтобы доказательство было сильным, нужны две группы.

ЭГ — экспериментальная группа. Занимается по вашей новой программе.
КГ — контрольная группа. Похожие люди, которые в это же время занимаются как обычно (или не занимаются вовсе).

Замеры делают четыре раза: «до» и «после» в каждой группе. Тогда у вас появляется честное сравнение: если в ЭГ прирост заметно больше, чем в КГ, — значит, разницу дала именно программа.

Очень важное условие — группы должны быть равны на старте. Если в ЭГ изначально собрались ребята покрепче, прирост будет нечестным. Поэтому перед началом сравните «до» обеих групп подходящим критерием и убедитесь, что разницы нет.

Совет

Перед экспериментом сравните стартовые показатели КГ и ЭГ критерием Манна-Уитни. Если p > 0,05 — группы равны, можно начинать, и в дипломе вы прямо пишете: «на этапе констатации значимых различий между группами не выявлено (U = …, p > 0,05)». Это снимает половину вопросов на защите.

Пример. Вы тестируете новую методику развития выносливости у легкоатлетов. В ЭГ (15 человек) — ваша программа с интервальными нагрузками, в КГ (15 человек) — обычные тренировки. До эксперимента средняя дистанция в тесте Купера у обеих групп почти одинаковая — старт честный.

Два уровня анализа

Это сердце всей главы. Анализ идёт в два шага, и путать их нельзя.

Шаг 1. Сдвиг внутри ЭГ — критерий Вилкоксона

Сначала вы доказываете, что внутри экспериментальной группы показатель действительно изменился. Берёте «до» и «после» у одних и тех же людей и считаете критерий Вилкоксона — он подходит для связанных замеров и не требует нормального распределения. Это удобно: показатели физиологических проб и баллы тестов часто распределены неровно.

Тот же расчёт полезно сделать и для КГ — чтобы увидеть, сдвинулась ли она. Часто в контрольной группе тоже есть небольшой рост (то самое «время»), и это нормально.

Пример. В ЭГ замерили индекс Руфье (чем меньше — тем лучше работает сердце) у 15 спортсменов до и после 8 недель программы. Медиана упала с 9,4 до 6,1. Вилкоксон дал T = 12 при критическом 25 — сдвиг значим (p < 0,05). Вывод первого шага: внутри ЭГ изменения есть.

Осторожно

Здесь кроется ловушка. Значимый сдвиг внутри ЭГ — это ещё не доказательство эффективности программы. В КГ за то же время показатель тоже мог значимо вырасти. Доказывает программу только следующий шаг — сравнение приростов.

Шаг 2. Сравнение приростов — критерий Манна-Уитни

Это и есть главное доказательство. Логика простая: посчитайте, на сколько изменился показатель у каждого человека, и сравните эти изменения между группами.

У каждого участника считаете дельту: «после − до». Это его личный прирост.
Получаете два набора дельт — приросты ЭГ и приросты КГ.
Сравниваете их критерием Манна-Уитни (он для двух независимых групп).

Если прирост в ЭГ статистически значимо больше, чем в КГ, — вы доказали, что разницу дала программа, а не время.

Пример. В том же исследовании по индексу Руфье медиана улучшения в ЭГ составила −3,3 балла, а в КГ всего −0,8. Манна-Уитни по дельтам дал U = 34, p < 0,05. Вот теперь вывод честный: программа эффективнее обычных тренировок, потому что прирост в ЭГ значимо больше.

Вывод

Запомните связку: Вилкоксон — доказать, что в ЭГ есть сдвиг; Манна-Уитни по дельтам — доказать, что этот сдвиг больше, чем у контрольной группы. Второй шаг и есть настоящее доказательство эффективности.

Размер эффекта: насколько сильно сработало

Значимость говорит «разница есть», но не говорит «насколько она большая». На больших выборках даже крошечный, практически бесполезный сдвиг может оказаться «значимым». Поэтому к p-значению добавляют размер эффекта — число, которое показывает силу изменений.

Для сравнения двух групп считают d Коэна: примерно 0,2 — слабый эффект, 0,5 — средний, 0,8 и выше — сильный.
Для непараметрических критериев (Вилкоксон, Манна-Уитни) удобна r — её можно получить прямо из расчёта.

Как это читается в дипломе: «прирост в ЭГ значимо выше (U = 34, p < 0,05), размер эффекта большой (d = 0,9)» — звучит убедительнее, чем сухое «различия значимы». Подробно всё разобрано в статье «Размер эффекта и d Коэна».

Размер эффекта не зависит от числа испытуемых, поэтому его особенно ценят на защите: он показывает практическую пользу программы, а не просто математический факт «различия есть». Если эффект слабый (d около 0,2), честно об этом напишите — это нормально и говорит о вашей научной аккуратности.

Пример с таблицей и диаграммой

Соберём всё вместе на примере с индексом Руфье (оценка работы сердца под нагрузкой; чем меньше индекс, тем лучше). Результаты сравнения двух групп удобно свести в одну таблицу — как в таблице 1.

Таблица 1 — Динамика индекса Руфье в КГ и ЭГ и сравнение приростов (n = 30)

Группа	Me до	Me после	Сдвиг внутри группы (Вилкоксон)	Me прироста (Δ)
КГ (n = 15)	9,2	8,4	T = 41, p > 0,05 — незначим	−0,8
ЭГ (n = 15)	9,4	6,1	T = 12, p < 0,05 — значим	−3,3
Сравнение приростов (Манна-Уитни)	—	—	U = 34, p < 0,05 — ЭГ лучше	—

Что говорит таблица словами: в контрольной группе показатель почти не изменился (сдвиг незначим), а в экспериментальной значимо улучшился. Главное — прирост в ЭГ значимо больше, чем в КГ (U = 34, p < 0,05). Значит, эффект дала именно программа. Те же медианы «до» и «после» для обеих групп наглядно показаны на рисунке 1.

Рисунок 1 — Медиана индекса Руфье до и после в контрольной и экспериментальной группах

Тот же приём работает для любых показателей. Если вы меряете VO₂max через тест Купера или работоспособность через пробу PWC-170, логика та же: дельты по каждому участнику, затем Манна-Уитни между группами.

Что писать в дипломе

Готовые формулировки, которые можно подставить под свои числа.

Про равенство на старте: «На констатирующем этапе значимых различий между КГ и ЭГ по индексу Руфье не выявлено (U = 98, p > 0,05), группы сопоставимы».
Про сдвиг внутри ЭГ: «В экспериментальной группе показатель значимо улучшился: медиана снизилась с 9,4 до 6,1 (критерий Вилкоксона, T = 12, p < 0,05)».
Про контрольную группу: «В контрольной группе значимых изменений не выявлено (T = 41, p > 0,05)».
Главный вывод (сравнение приростов): «Прирост показателя в ЭГ статистически значимо превышает прирост в КГ (критерий Манна-Уитни, U = 34, p < 0,05), что подтверждает эффективность предложенной программы».
Про силу эффекта: «Размер эффекта большой (r = 0,52), различия имеют практическую значимость».

В каждой формулировке обязательно указывайте сам критерий, его статистику (T или U), число наблюдений и p-значение. Без этих цифр вывод «программа эффективна» считается голословным.

Частые ошибки

Доказывать эффективность только ростом среднего в ЭГ. Это первый шаг, а не доказательство. Нужно сравнение приростов с контрольной группой.
Сравнивать «после ЭГ» с «после КГ» напрямую. Так вы игнорируете стартовые различия. Сравнивать нужно приросты (дельты), а не конечные значения.
Не проверить равенство групп на старте. Если ЭГ изначально сильнее, весь эксперимент под вопросом.
Брать связанный критерий для двух групп. Вилкоксон — для «до/после» у одних людей; для сравнения ЭГ и КГ нужен Манна-Уитни (это независимые группы).
Забыть про размер эффекта. Значимость без него отвечает только на половину вопроса.
Применять критерий Стьюдента к ненормальным данным. Физиологические индексы и баллы часто ненормальны — безопаснее непараметрика. Про выбор — статья «Параметрические и непараметрические критерии».

Частые вопросы

А можно без контрольной группы?

Можно, но доказательство будет слабым. Без КГ вы покажете только сдвиг внутри ЭГ (Вилкоксоном) и не сможете доказать, что его дала именно программа, а не время или взросление. Если КГ собрать никак нельзя, честно опишите это как ограничение исследования.

Почему нельзя просто сравнить «после» в двух группах?

Потому что группы могли стартовать с разных уровней. Представьте, что ЭГ была чуть слабее на старте, но программа их подтянула — а по конечным значениям они всё равно ниже КГ. Сравнение «после с после» это упустит. Поэтому сравнивают именно приросты (дельты).

Что если данные нормальные — можно параметрику?

Да. Если распределение приростов близко к нормальному (проверьте Шапиро-Уилком), вместо Вилкоксона берут парный критерий Стьюдента, а вместо Манна-Уитни — независимый Стьюдента. Логика двух шагов остаётся той же. Какой выбрать — подскажет статья «Стьюдент или Манна-Уитни».

А если замеров три (до, в середине, после)?

Для трёх и более связанных замеров внутри группы берут критерий Фридмана вместо Вилкоксона. Для сравнения трёх и более групп — критерий Краскела-Уоллиса вместо Манна-Уитни.

Сколько человек нужно в каждой группе?

Чёткого минимума нет, но для непараметрических критериев желательно хотя бы 12–15 человек в группе — иначе мощности не хватит, и реальный эффект можно не заметить. Подробно — в статье «Сколько респондентов нужно для диплома».

Короткий алгоритм

Соберите две группы — ЭГ и КГ — и убедитесь, что на старте они равны (Манна-Уитни, p > 0,05).
Сделайте замеры «до» и «после» в обеих группах.
Докажите сдвиг внутри ЭГ: Вилкоксон по «до/после».
Посчитайте дельты («после − до») у каждого участника обеих групп.
Сравните приросты ЭГ и КГ: Манна-Уитни — это главное доказательство.
Добавьте размер эффекта и оформите таблицу с выводом.

Что ещё почитать

Размер эффекта и d Коэна — как показать силу изменений, а не только их наличие.
Стьюдент или Вилкоксон: что выбрать — какой критерий брать для «до/после».
Стьюдент или Манна-Уитни — как сравнивать две независимые группы.
Что такое p-значение простыми словами — как правильно прочитать результат.
Калькулятор Вилкоксона и калькулятор Манна-Уитни — посчитать оба шага онлайн.

Не уверены, как построить дизайн или какой критерий взять, — загляните в базу методов или закажите консультацию: эксперт поможет с расчётами и формулировками для вашей работы.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.

Заказать консультацию