Выбросы в данных: как найти и что с ними делать
Что такое выбросы и почему они портят среднее, SD и параметрические критерии. Как найти их по правилу 1,5×IQR, ±3σ и боксплоту — с примерами, таблицей и FAQ.
Вы собрали данные, посчитали среднее — и оно подозрительно «не такое». Все ответы крутятся около 20, а среднее почему-то 35. Скорее всего, в выборку затесался выброс — одно или несколько значений, которые резко выбиваются из общего ряда.
Выбросы коварны: одно случайное число способно перекосить среднее, раздуть разброс и обрушить выводы по критериям. Разберёмся, как их распознать и что с ними делать, чтобы диплом не развалился на защите.
В двух словах
Выброс — это аномальное значение, которое сильно отличается от остальных. Найти его можно тремя способами: по правилу 1,5×IQR (через квартили), по правилу ±3σ (через стандартное отклонение) и визуально по боксплоту — точки за «усами» и есть кандидаты в выбросы.
Что делать: сначала проверьте, не ошибка ли это ввода. Если ошибка — исправьте. Если значение реальное, но всё ломает — переходите на медиану и непараметрические критерии, которые к выбросам устойчивы. Быстро посмотреть среднее, медиану, квартили и разброс по вашему ряду можно в калькуляторе описательной статистики.
Что такое выброс и почему он опасен
Представьте, что вы измеряете время бега на 100 метров у группы студентов. Все уложились в 13–16 секунд, а один — за 95 секунд: подвернул ногу и дошёл пешком. Это значение настоящее (так и было), но для задачи «какова типичная скорость группы» оно бесполезно и даже вредно.
Опасность в том, что многие статистические показатели «доверчивы»: они учитывают каждое число с одинаковым весом, и один гигант перетягивает их на себя.
- Среднее тянется к выбросу. Среднее — это «центр тяжести» ряда. Добавьте одно огромное значение — и центр уезжает к нему, переставая отражать большинство.
- Стандартное отклонение раздувается. Стандартное отклонение (SD) и дисперсия считают, насколько значения разбросаны вокруг среднего. Выброс далеко от центра — и разброс кажется огромным, хотя основная масса данных кучная.
- Параметрические критерии «плывут». Критерий Стьюдента, корреляция Пирсона, ANOVA работают со средними и SD. Если эти показатели искажены выбросом, то и вывод «значимо / не значимо» может оказаться неверным.
- Корреляция ломается особенно зрелищно. Одна точка в углу графика способна нарисовать «связь», которой нет, или, наоборот, спрятать реальную.
Ключевая мысль: выброс — это не «плохое» число, которое надо стереть. Это сигнал. Иногда он указывает на ошибку в данных, иногда — на редкий, но настоящий случай. Ваша задача не удалить его поскорее, а понять, откуда он взялся.
Как выброс портит среднее: пример с числами
Возьмём конкретный ряд. Девять студентов прошли тест на тревожность, баллы получились кучными:
Пример. Баллы девяти студентов: 18, 20, 21, 22, 22, 23, 24, 25, 26. Среднее = 22,3, медиана = 22. Всё спокойно: центр около 22, и среднее, и медиана это подтверждают.
Теперь добавим десятого студента, который машинально проставил везде максимум и набрал 90 баллов (явная аномалия — шкала будто переполнена). Пересчитаем.
Таблица 1 — Как один выброс меняет показатели ряда
| Показатель | Без выброса (n = 9) | С выбросом 90 (n = 10) | Что произошло |
|---|---|---|---|
| Среднее | 22,3 | 29,1 | уехало на +6,8, хотя добавился один человек |
| Медиана | 22 | 22,5 | почти не сдвинулась |
| Стандартное отклонение | ≈ 2,4 | ≈ 20,8 | раздулось почти в 9 раз |
| Размах | 8 | 72 | картина «огромного разброса» из воздуха |
Вывод словами: один-единственный выброс поднял среднее почти на 7 баллов и раздул стандартное отклонение в девять раз — теперь данные выглядят «дикими», хотя девять человек из десяти по-прежнему рядом. А вот медиана (значение ровно посередине упорядоченного ряда) почти не дрогнула: 22 против 22,5. В этом её сила.
Заметьте разницу: среднее «доверяет» каждому числу, поэтому выброс тянет его за собой. Медиана смотрит только на того, кто стоит в середине ряда, и ей всё равно, насколько велик крайний справа — 26 там или 26 000. Подробнее про эту троицу — в статье «Среднее, медиана и мода».
Как найти выбросы: три способа
Способ 1. Правило 1,5×IQR (по квартилям)
Самый популярный и надёжный метод — он не зависит от формы распределения. Работает через квартили — значения, которые делят упорядоченный ряд на четыре равные части (подробно — в статье «Медиана и квартили»).
- Q1 — первая квартиль, отсекает нижние 25% данных.
- Q3 — третья квартиль, отсекает верхние 25%.
- IQR — межквартильный размах, это просто Q3 − Q1, «ширина» средней половины данных.
Дальше считаем границы. Всё, что вылезает за них, — подозреваемые:
- нижняя граница = Q1 − 1,5 × IQR;
- верхняя граница = Q3 + 1,5 × IQR.
Пример. В нашем ряду с выбросом Q1 ≈ 21, Q3 ≈ 25, значит IQR = 4. Верхняя граница = 25 + 1,5 × 4 = 31. Значение 90 больше 31 → это выброс. А все «нормальные» баллы (18–26) спокойно укладываются между нижней границей 15 и верхней 31.
Считать квартили вручную муторно и легко перепутать. Вставьте свой ряд в калькулятор описательной статистики: он сразу выдаст Q1, Q3 и IQR, останется только подставить в формулу 1,5×IQR.
Способ 2. Правило ±3σ (через стандартное отклонение)
Этот метод подходит, когда данные распределены примерно нормально (колоколом). Логика: при нормальном распределении почти все значения (99,7%) лежат в пределах трёх стандартных отклонений от среднего. Всё, что дальше, — крайне редкое событие, скорее всего выброс.
- считаем среднее и стандартное отклонение σ;
- границы = среднее ± 3σ;
- что вылетело за них — кандидат в выбросы.
Пример. Если среднее = 22 и σ = 2,5, то коридор «нормы» = от 22 − 7,5 до 22 + 7,5, то есть от 14,5 до 29,5. Балл 90 туда не помещается даже близко.
У правила ±3σ есть ловушка: сам выброс раздувает σ, расширяет коридор — и может сам себя «спрятать», особенно в маленькой выборке. Поэтому на малых выборках и при ненормальных данных надёжнее правило 1,5×IQR: оно опирается на квартили, а их выброс почти не сдвигает.
Способ 3. Визуально — по боксплоту
Боксплот («ящик с усами») — это график, который рисует всю описательную статистику разом: коробка показывает межквартильный размах (от Q1 до Q3), линия внутри — медиану, «усы» тянутся до крайних обычных значений, а отдельные точки за усами — это и есть выбросы. По сути боксплот рисует то же правило 1,5×IQR, только наглядно.
Боксплот хорош тем, что показывает выброс мгновенно: глаз сам цепляется за одинокую точку вдали от коробки. Поэтому его удобно вставить в диплом как иллюстрацию — и для себя, чтобы быстро проверить данные.
Что делать с выбросом: алгоритм решения
Нашли подозрительную точку — не спешите удалять. Пройдите по шагам.
- Шаг 1. Проверьте, не ошибка ли ввода. Чаще всего выброс — это банальная опечатка: лишний ноль (вес 700 кг вместо 70), запятая не там (рост 1,8 превратился в 18), перепутанные единицы. Вернитесь к анкете или протоколу и сверьте.
- Шаг 2. Ошибку — исправьте или удалите. Если видно, что должно быть 70, а не 700, — поправьте. Если исходник недоступен и значение явно невозможное (возраст 200 лет) — удалите эту запись, отметив это в работе.
- Шаг 3. Значение реальное? Тогда не выбрасывайте просто так. Если спортсмен и правда пробежал медленно из-за травмы, а респондент честно набрал высокий балл — это часть вашей выборки. Удалять реальные данные «потому что мешают» — подтасовка.
- Шаг 4. Перейдите на устойчивые методы. Когда выбросы настоящие, не воюйте с ними — смените инструмент. Описывайте данные медианой и квартилями вместо среднего и SD, а для сравнения групп берите непараметрические критерии (Манна-Уитни, Вилкоксона, Краскела-Уоллиса) — они работают с рангами и к выбросам почти безразличны.
Главный принцип: ошибку — исправляем, реальный выброс — оставляем, но переходим на медиану и непараметрику. Удалять настоящие данные ради «красивого» среднего нельзя — это искажение результатов, и на защите такой ход легко поймать.
Что писать в дипломе
Выбросы нельзя «тихо» удалять — любые манипуляции с данными описывают честно. Вот готовые формулировки.
Если нашли и исправили ошибку ввода:
«При первичной проверке данных выявлено одно значение (вес 700 кг), являющееся ошибкой ввода; оно исправлено на корректное (70 кг) по данным протокола».
Если обнаружили выброс по правилу 1,5×IQR и решили перейти на непараметрику:
«Анализ методом 1,5×IQR выявил 2 выброса в показателе времени реакции. Поскольку значения являются реальными, для описания применялись медиана и квартили, а для сравнения групп — непараметрический критерий Манна-Уитни».
Если выброс реальный и вы его оставили:
«Значение 95 секунд обусловлено травмой испытуемого в ходе тестирования; как достоверное, оно сохранено в выборке».
Опишите выбросы в разделе про обработку данных — буквально одним абзацем: чем проверяли (1,5×IQR или ±3σ), сколько нашли, что с ними сделали. Это показывает, что вы работали с данными аккуратно, а не «причесали» их втихую.
Частые ошибки
- Удалять выбросы молча, чтобы среднее стало красивее. Это искажение данных. Любое удаление обосновывают и описывают в работе.
- Считать выбросом всё, что не нравится. Выброс определяют по правилу (1,5×IQR или ±3σ), а не «на глаз, потому что портит картину».
- Проверять ±3σ на ненормальных данных. Если распределение перекошено, правило трёх сигм врёт. Сначала проверьте нормальность (Шапиро-Уилк), потом выбирайте метод.
- Оставить выбросы и считать параметрику. Если выбросы есть, а вы упорно применяете Стьюдента и Пирсона по среднему — выводы могут быть недостоверными.
- Путать выброс с нормальным разбросом. В большой выборке крайние значения — это норма, а не аномалия. Выброс — то, что вылетает далеко за границы 1,5×IQR.
Частые вопросы
Чем выброс отличается от просто большого значения?
Большое значение лежит в пределах ожидаемого разброса (внутри границ 1,5×IQR или ±3σ). Выброс выходит за эти границы и резко отрывается от остального ряда. Граница не «на глаз», а по формуле — поэтому методы и нужны.
Сколько выбросов — это уже много?
Жёсткого порога нет. Один-два на выборку из 30–50 человек — обычное дело. Но если «выбросов» десятая часть данных и больше, это уже не аномалии, а сигнал: возможно, у вас не нормальное распределение или две разные подгруппы в одной выборке. Тогда вопрос не в удалении, а в смене подхода к анализу.
Можно ли вообще удалять выбросы?
Только обоснованно. Ошибки ввода и физически невозможные значения — да, удаляют (и пишут об этом). Реальные крайние значения удалять нельзя: это часть генеральной совокупности. Вместо удаления переходите на медиану и непараметрические критерии.
Что лучше при выбросах — 1,5×IQR или ±3σ?
Для большинства студенческих работ — 1,5×IQR: он не требует нормальности и устойчив на малых выборках. Правило ±3σ хорошо только для данных, близких к нормальному распределению, и на больших выборках.
Если убрать выброс, результат меняется на значимый — что делать?
Это тревожный знак: ваш вывод держится на одной точке. Честный путь — посчитать оба варианта (с выбросом и без) и описать оба, либо перейти на непараметрический критерий, который устойчив к выбросам, и опереться на него.
Короткий алгоритм
- Постройте боксплот или посчитайте границы. Прогоните ряд через калькулятор описательной статистики, найдите Q1, Q3 и примените 1,5×IQR (либо ±3σ, если данные нормальны).
- Разберитесь с каждым подозреваемым. Ошибка ввода? — исправьте или удалите с пометкой. Реальное значение? — оставьте.
- Если выбросы реальные — смените инструмент. Описывайте данные медианой и квартилями, а группы сравнивайте непараметрикой (Манна-Уитни, Вилкоксона, Краскела-Уоллиса). И обязательно опишите всё это в дипломе одним абзацем.
Что ещё почитать
- Стандартное отклонение и дисперсия — почему выброс так сильно раздувает разброс.
- Среднее, медиана и мода — чем медиана устойчивее среднего и когда её брать.
- Как проверить нормальность распределения — нужно перед выбором между ±3σ и непараметрикой.
- Параметрические и непараметрические критерии — куда уходить, если выбросы остаются.
- Калькулятор описательной статистики — посчитать среднее, медиану, квартили и SD онлайн.
Не уверены, что делать с выбросами в ваших данных, — загляните в базу методов или закажите консультацию: эксперт проверит выборку и подберёт корректный метод анализа.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию