Критерий Колмогорова-Смирнова: проверка распределения
Как критерием Колмогорова-Смирнова проверить нормальность и сравнить два распределения, чем он отличается от Шапиро-Уилка и как читать результат — с примерами и FAQ.
Вам нужно понять, «нормальное» ли у показателя распределение или сравнить два набора данных целиком — и кто-то посоветовал критерий Колмогорова-Смирнова. Звучит грозно, но идея у него простая.
Этот критерий смотрит не на одно число (среднее или медиану), а на форму распределения целиком. Разберём, что он делает, когда его брать вместо Шапиро-Уилка и как вписать результат в диплом.
В двух словах
- Критерий Колмогорова-Смирнова (часто пишут «К-С») сравнивает накопленные частоты и ищет самое большое расхождение между ними. У него две роли: проверить, похоже ли распределение на нормальное, и сравнить два распределения между собой.
- Критерий Шапиро-Уилка — тоже про нормальность, но он точнее на малых выборках (до 50 человек). Для диплома с небольшой выборкой это обычно главный инструмент.
Простое правило: малая выборка → Шапиро-Уилк; большая выборка или нужно сравнить два распределения → Колмогорова-Смирнова. О самой проверке нормальности есть отдельная статья — «Как проверить нормальность распределения».
Что вообще делает критерий Колмогорова-Смирнова
Чтобы понять механику, представьте не отдельные значения, а накопленную долю: какая часть людей набрала балл «не выше такого-то».
Пример. Вы выстраиваете студентов в очередь по росту от низких к высоким. В каждой точке считаете, сколько процентов очереди уже прошло. Получается плавная кривая, которая ползёт от 0 % до 100 %. Это и есть накопленное распределение.
Критерий К-С берёт две такие кривые и накладывает их друг на друга. Дальше он ищет место, где они расходятся сильнее всего, и измеряет этот максимальный разрыв. Сам разрыв обозначают буквой D (или λ — «лямбда» в старых учебниках).
- Если проверяем нормальность — одна кривая ваша, реальная, а вторая «идеальная», какой была бы при нормальном распределении.
- Если сравниваем две группы — обе кривые реальные: например, мальчики и девочки, контрольная и экспериментальная группы.
Чем больше разрыв D, тем сильнее распределения отличаются. Программа переводит D в привычное p-значение — именно по нему вы и делаете вывод, а не по самому числу D.
Как читать результат
Здесь работает то же правило, что и у других критериев нормальности, и новичков оно часто путает. Запомните логику «наоборот».
Гипотеза по умолчанию (H₀) звучит так: «распределение не отличается от нормального» (или «два распределения одинаковы»). Критерий проверяет, есть ли основания её отвергнуть.
- p > 0,05 — расхождение мало, оснований отвергать нет. Распределение можно считать нормальным (или две группы — одинаковыми). Это «хороший» исход, если вы хотите применять параметрические методы.
- p ≤ 0,05 — расхождение слишком велико, чтобы быть случайным. Распределение отличается от нормального (или группы различаются).
Логика обратная привычной. При сравнении средних «p < 0,05» — это успех, «эффект есть». А при проверке нормальности «p < 0,05» — наоборот, тревожный сигнал: данные ненормальны, параметрический критерий брать нельзя. Не перепутайте.
Если хотите освежить само понятие — загляните в статью «Что такое p-значение простыми словами».
Чем К-С отличается от Шапиро-Уилка
Оба проверяют нормальность, но решают это по-разному и работают лучше в разных условиях.
- Колмогорова-Смирнова. Сравнивает форму через накопленные частоты. Хорошо чувствует себя на больших выборках (грубо — от 50–100 наблюдений и выше). Универсален: умеет ещё и сравнивать два распределения между собой.
- Шапиро-Уилка. Заточен именно под проверку нормальности и считается самым чувствительным критерием на малых выборках. Если у вас 20–40 человек, он заметит отклонение там, где К-С промолчит.
В большинстве дипломов выборка небольшая (30–60 человек), поэтому по умолчанию берут именно Шапиро-Уилка. Критерий К-С вытаскивают, когда выборка крупная или когда нужна его «вторая профессия» — сравнение двух распределений.
Не выбирайте критерий нормальности «на глаз». Прогоните данные через калькулятор Шапиро-Уилка и калькулятор Колмогорова-Смирнова — это пара минут, а вывод о нормальности определит всю дальнейшую статистику в работе.
Таблица 1 — Когда какой критерий нормальности выбрать
| Ситуация | Размер выборки | Что брать |
|---|---|---|
| Проверка нормальности, маленькая выборка | до ~50 | Шапиро-Уилка |
| Проверка нормальности, крупная выборка | от ~50–100 | Колмогорова-Смирнова |
| Сравнить два распределения целиком | любой | Колмогорова-Смирнова |
Из таблицы видно: для типичного студенческого диплома чаще подходит Шапиро-Уилка, а К-С — это «тяжёлая артиллерия» для больших данных и для сравнения групп.
Пример: проверяем нормальность перед выбором критерия
Покажем самый частый сценарий — нужно решить, каким критерием сравнивать показатель.
Пример. Вы измерили уровень мотивации у 120 студентов и хотите сравнить юношей и девушек. Прежде чем брать критерий Стьюдента, надо проверить нормальность. Выборка большая (120 человек), поэтому уместен критерий Колмогорова-Смирнова.
Загружаете баллы в калькулятор К-С и получаете, например, D = 0,061 и p = 0,28.
Читаем: p = 0,28 больше 0,05, значит, распределение не отличается от нормального. Путь открыт — можно применять параметрический критерий Стьюдента и в дипломе писать про средние значения.
А вот другой исход того же примера: D = 0,142 и p = 0,004. Здесь p меньше 0,05 — распределение ненормальное. Стьюдента брать нельзя, переходим на непараметрический критерий Манна-Уитни. Подробнее о развилке — в статье «Параметрические и непараметрические критерии».
Что писать в дипломе
В тексте обязательно укажите сам критерий, его статистику D и p-значение. Без этих чисел вывод «распределение нормальное» не считается доказанным.
Готовые формулировки для проверки нормальности:
- «Проверка нормальности распределения по критерию Колмогорова-Смирнова показала отсутствие значимых отклонений от нормального закона (D = 0,061; p = 0,28), что позволяет применять параметрические методы».
- «Распределение показателя значимо отличается от нормального (D = 0,142; p = 0,004), поэтому для сравнения групп использован непараметрический критерий».
Для сравнения двух распределений:
- «Распределения уровня тревожности в контрольной и экспериментальной группах значимо различаются (D = 0,31; p = 0,01)».
- «Статистически значимых различий между распределениями не выявлено (D = 0,12; p = 0,42)».
Проверка нормальности — это не самостоятельный результат, а подготовительный шаг. В работе она нужна, чтобы обосновать выбор основного критерия. Так и подавайте: «по результату проверки нормальности для дальнейшего анализа выбран такой-то критерий».
Если показатели описываете рядом, удобно свести их в таблицу нормальности (D и p по каждой переменной) — как оформлять, смотрите в статье «Как оформить таблицы и рисунки в дипломе».
Частые ошибки
- Читать p-значение наоборот. При проверке нормальности значимым (плохим) считается p < 0,05 — это признак ненормальности. Здесь «значимо» означает «значимо отличается от нормы».
- Брать К-С на маленькой выборке. На 20–30 наблюдениях он слабо чувствует отклонения и почти всегда «разрешает» нормальность. На малых выборках надёжнее Шапиро-Уилка.
- Путать две роли критерия. Одно дело — сравнить ваши данные с нормальным эталоном (проверка нормальности), другое — сравнить две реальные группы. Это разные задачи, не смешивайте их в одном предложении.
- Делать вывод о методе только по картинке. Гистограмма «на глаз» — лишь подсказка. Решает именно расчёт с D и p-значением.
- Сравнивать средние без проверки нормальности. Сначала проверяете распределение, и только потом выбираете параметрический или непараметрический критерий.
Частые вопросы
Чем критерий Колмогорова-Смирнова лучше Шапиро-Уилка?
Он универсальнее: умеет не только проверять нормальность, но и сравнивать два распределения между собой. А ещё стабильно работает на больших выборках. Но именно по чувствительности к ненормальности на малых выборках Шапиро-Уилка его обычно превосходит.
Что такое поправка Лиллиефорса?
Классический критерий К-С предполагает, что параметры нормального распределения (среднее и отклонение) известны заранее. На практике их берут из тех же данных, и тогда критерий становится слишком «мягким». Поправка Лиллиефорса это исправляет — многие программы применяют именно её. Вам как студенту достаточно смотреть на итоговое p-значение в калькуляторе.
У меня вышло p < 0,05 — это плохо?
Не плохо, просто ваши данные ненормальные. Это нормальная ситуация: значит, вместо параметрических критериев (Стьюдента, Пирсона) вы берёте непараметрические — Манна-Уитни, Вилкоксона, Спирмена. Диплом от этого не страдает.
Что писать про сам критерий — D или λ?
Это одно и то же по сути: D — современное обозначение максимального разрыва, λ (лямбда) — старое из учебников. Приводите то значение, которое выдал ваш калькулятор, вместе с p-значением. Чаще всего сегодня пишут D.
Можно ли К-С использовать для баллов анкеты?
Можно, если выборка большая. Но помните: баллы анкеты — порядковая шкала, и для них чаще сразу берут непараметрические критерии, не цепляясь за нормальность. О типах шкал — в статье «Шкалы измерения».
Короткий алгоритм
- Посмотрите на размер выборки. До ~50 человек → Шапиро-Уилка, больше → Колмогорова-Смирнова.
- Нужно сравнить два распределения целиком? Сразу берите К-С.
- Прогоните данные через калькулятор, посмотрите на p-значение.
- p > 0,05 — распределение нормальное → параметрические критерии. p ≤ 0,05 — ненормальное → непараметрические.
Короче: малая выборка → Шапиро-Уилка, большая или сравнение групп → Колмогорова-Смирнова. А вывод всегда читаем по p: больше 0,05 — норма, меньше или равно — отклонение.
Что ещё почитать
- Как проверить нормальность распределения — все способы и пошаговый разбор.
- Что такое нормальное распределение — откуда берётся «колокол» и зачем он нужен.
- Параметрические и непараметрические критерии — куда идти после проверки нормальности.
- Калькулятор Колмогорова-Смирнова и калькулятор Шапиро-Уилка — посчитать онлайн за минуту.
Не уверены, какой критерий нормальности взять и что делать с результатом — загляните в базу методов или закажите консультацию: эксперт проверит распределение и подберёт критерий за вас.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию