Пропуски в данных: удалить или заменить медианой
Что делать с пропусками в данных диплома: когда удалять респондента, а когда замена пропусков на медиану или среднее. Как описать решение в работе. С примерами и FAQ.
Вы собрали анкеты, забили цифры в таблицу — и в нескольких клетках пусто. Кто-то пропустил вопрос, кто-то не пришёл на второй замер, где-то стерлась цифра в бланке.
Пропуск — это не катастрофа и не повод переделывать сбор данных. Но и просто оставить пустую клетку нельзя: калькулятор либо выдаст ошибку, либо молча посчитает неправильно. Разберёмся, что с этим делать.
В двух словах
Есть два пути: удалить наблюдение целиком или заменить пропуск каким-то числом — чаще всего медианой, средним или модой. Если пропусков мало (единичные) и они случайны — обычно удаляют строку. Если удалять жалко (маленькая выборка) — заменяют: количественные данные на медиану/среднее, порядковые и категориальные на моду.
Посчитать среднее, медиану и моду по вашему столбцу можно в калькуляторе описательной статистики — он сразу даст числа для замены. А чем эти три величины отличаются и что когда брать — в статье «Среднее, медиана и мода».
Откуда вообще берутся пропуски
Пропуск — это отсутствующее значение там, где оно должно было быть. В вашей таблице это пустая ячейка, прочерк, слово «нет данных» или подозрительный ноль вместо реального измерения.
Типичные источники в студенческой работе:
- Респондент пропустил вопрос — забыл, не понял, не захотел отвечать на личное.
- Выпал из второго замера — заболел, ушёл из группы, не пришёл на повторное тестирование «после».
- Ошибка при вводе — цифра не считалась с бланка, клетку забили пустой.
- Бракованное измерение — секундомер сбился, прибор не сработал, ответ явно нечитаем.
Важно отличать пропуск от настоящего нуля. Ноль отжиманий — это результат (человек не смог), его удалять или заменять нельзя. А вот пустая клетка «не измеряли» — это пропуск. Если в анкете 0 означает «нет ответа», замените такие нули на пустые ячейки до расчётов, иначе они занизят среднее.
Откуда пропуски — это важнее, чем кажется
Прежде чем выбирать, удалять или заменять, ответьте на один вопрос: пропуски случайны или нет?
Случайный пропуск. Человек просто пропустил вопрос, и это никак не связано с его ответами. Например, в анкете из 20 пунктов один забыли отметить. Такие пропуски безопасны — их можно и удалить, и заменить.
Неслучайный пропуск. Отсутствие ответа само о чём-то говорит. Классика: на вопрос о доходе не ответили именно люди с высоким (или очень низким) доходом. Тогда и удаление, и замена средним исказят картину — вы «выровняете» как раз тех, кто отличался.
Если из второго замера выпали именно слабые участники (бросили программу, потому что не пошло), — это неслучайный пропуск. Заменив их результаты средним, вы искусственно улучшите итог «после». В дипломе такой пропуск честно оговаривают, а не маскируют.
Для студенческой работы в большинстве случаев пропуски случайны и единичны — тогда годятся простые методы ниже. Но проверить, не выпала ли целая «группа риска», стоит всегда.
Путь первый: удалить наблюдение
Самый честный и простой способ — выкинуть строку с пропуском целиком (это называют «удалением по списку»).
Когда удалять:
- пропусков мало — единицы на всю выборку (ориентир: меньше 5% строк);
- выборка достаточно большая, чтобы потеря пары человек не была критичной (скажем, было 60, осталось 58);
- пропуски случайны — нет подозрения, что выпала особенная группа.
Пример. В опросе участвовали 50 студентов. Двое не ответили на один вопрос. Вы удаляете этих двоих — остаётся 48 человек. Потеря 4% выборки, на выводах не скажется. Это самый защищённый от придирок вариант: вы ничего не «придумали» за респондента.
Удаляйте строку только в том анализе, где этот столбец участвует. Если человек пропустил один вопрос из десяти шкал, нет смысла выкидывать его из расчётов по остальным девяти. В дипломе тогда указывают разное n для разных показателей — это нормально.
Путь второй: заменить пропуск
Если выборка маленькая и каждый человек на счету, наблюдение жалко удалять. Тогда пропуск заполняют правдоподобным числом. Чем именно — зависит от типа данных.
Среднее (арифметическое). Подходит для количественных данных без выбросов и с симметричным распределением (рост, время, баллы теста, которые распределены ровно).
Медиана. Подходит для количественных данных, в которых есть выбросы или скос (доход, стаж, время реакции). Медиана устойчива к крайним значениям, поэтому в дипломах её берут чаще среднего — это безопасный выбор по умолчанию.
Мода (самое частое значение). Для порядковых и категориальных данных: пол, ответ по шкале «да/нет/затрудняюсь», уровень по Лайкерту. Среднее по таким данным считать бессмысленно.
Формула замены проста — в пустую клетку ставят одно число, посчитанное по остальным значениям этого же столбца:
x_пропуск = Me (или x̄, или Mo) по имеющимся значениям столбца
где Me — медиана, x̄ — среднее, Mo — мода имеющихся (непустых) значений того столбца, где образовался пробел.
Таблица 1 — Чем заполнять пропуск в зависимости от типа данных
| Тип данных | Пример показателя | Чем заменить | Почему |
|---|---|---|---|
| Количественный, симметричный | рост, баллы теста | среднее (x̄) | отражает типичный уровень |
| Количественный со скосом/выбросами | доход, стаж, время | медиана (Me) | устойчива к крайним значениям |
| Порядковый (шкала Лайкерта) | «оцените от 1 до 5» | медиана или мода | среднее по баллам шкалы некорректно |
| Категориальный | пол, «да/нет» | мода (Mo) | среднего у категорий нет |
Из таблицы 1 видно главное правило: для числовых данных по умолчанию берите медиану, среднее — только если уверены, что распределение ровное и без выбросов; для нечисловых — моду.
У замены есть цена: вы вставляете «выдуманное» число, и разброс данных искусственно уменьшается. Чем больше пропусков вы заполнили, тем сильнее искажение. Поэтому замена хороша для единичных пропусков, а если пусто больше 10–15% значений столбца — данные ненадёжны, и это надо честно признать, а не латать дырки.
Развёрнутый пример с числами
Вы измеряли гибкость (наклон вперёд, см) у 10 человек. Один результат не записали:
12, 9, 15, 11, 8, 14, (пропуск), 10, 13, 9
Сначала смотрим на имеющиеся 9 значений. Считаем по ним (удобно — в калькуляторе описательной статистики):
- сумма = 101, среднее x̄ = 101 ÷ 9 ≈ 11,2 см;
- упорядоченный ряд: 8, 9, 9, 10, 11, 12, 13, 14, 15 → медиана Me = 11 см.
Выбросов нет, разброс небольшой — можно взять любое. Возьмём медиану как более безопасный вариант: в пустую клетку ставим 11. Теперь столбец полный, и его можно сравнивать с другим замером.
Альтернатива — удалить. Если бы выборка была побольше (например, 40 человек), проще выкинуть этого одного и считать по 39. На среднем это почти не скажется.
Коротко на этом примере: мало данных → заменили медианой (11 см); много данных → удалили бы строку. И то, и другое — корректно, если честно описать в работе.
Что писать в дипломе
Решение про пропуски обязательно фиксируют в разделе про обработку данных. Готовые формулировки — подставьте свои числа:
- «В ходе обработки выявлено 2 пропущенных значения (1,3% от общего объёма данных). Учитывая единичный характер пропусков, соответствующие наблюдения были исключены из анализа; итоговый объём выборки составил n = 48».
- «Единичные пропущенные значения по шкале “гибкость” заменены медианой по имеющимся значениям показателя (Me = 11), поскольку объём выборки не позволял исключать наблюдения».
- «Пропуски в категориальной переменной “пол” заполнены модальным значением».
- «Пропуски носили случайный характер и не были связаны с уровнем измеряемого показателя».
Главное — назвать число пропусков, способ их обработки и причину выбора. Тогда у проверяющего не возникнет вопросов.
Частые ошибки
- Оставить пустые клетки и нажать «посчитать». Калькулятор либо упадёт с ошибкой, либо сдвинет значения и посчитает по чужим парам. Сначала разберитесь с пропусками, потом считайте.
- Заменить нули, которые на самом деле результат. 0 подтягиваний — это данные, а не пропуск.
- Считать среднее по шкале «да/нет» или баллам Лайкерта. Для категорий и порядковых данных берут моду (или медиану), а не среднее.
- Заменить средним при сильном скосе или выбросах. Среднее утянется к крайним значениям — берите медиану.
- Латать заменой больше 10–15% столбца. Это уже не «починка», а сочинение данных. Лучше честно написать об ограничении.
- Не упомянуть пропуски в работе вообще. Молча удалить 5 человек так, что n «не сходится» по таблицам, — повод для вопросов на защите.
Частые вопросы
Сколько пропусков можно заменить, чтобы это было прилично?
Жёсткого правила нет, но ориентир такой: единичные пропуски (до 5% значений) можно спокойно удалять или заменять. Если пусто 10–15% и больше — данные по этому показателю считаются ненадёжными, и это честнее признать как ограничение, чем заполнять.
Медиана или среднее — что брать по умолчанию?
Для диплома безопаснее медиана: она устойчива к выбросам и не «врёт» при скошенном распределении. Среднее берите, только если уверены, что данные распределены ровно и без крайних значений. Подробнее — в статье «Среднее, медиана и мода».
А если пропуск во втором замере (было «до и после»)?
Если человек прошёл «до», но выпал «после» — у вас неполная пара. Для парных критериев (Стьюдента, Вилкоксона) такую пару либо удаляют целиком, либо заполняют замену по правилам выше. Удаление пары обычно честнее: дописывать человеку результат «после», которого не было, — рискованно для выводов.
Можно ли просто удалить весь столбец, если в нём много пропусков?
Да, если показатель не ключевой для гипотезы. Если по какому-то вопросу ответила лишь половина выборки, корректнее отказаться от этого показателя, чем строить на нём выводы. Обязательно оговорите это в работе.
Считается ли замена пропусков «подтасовкой»?
Нет, если она единичная, обоснованная и описана в тексте. Это стандартный приём обработки данных. Подтасовка — это когда замену прячут или ею массово «улучшают» результат. Прозрачность всё решает.
Короткий алгоритм
- Найдите все пропуски и убедитесь, что это пропуски, а не настоящие нули.
- Оцените, случайны ли они и не выпала ли целая особенная группа.
- Мало пропусков + большая выборка → удалите строку (по списку или только в нужном анализе).
- Маленькая выборка, удалять жалко → замените: числа — медианой/средним, категории — модой (числа удобно посчитать в калькуляторе описательной статистики).
- Опишите в дипломе: сколько пропусков, что сделали и почему.
Что ещё почитать
- Среднее, медиана и мода — чем три величины отличаются и какую брать для замены.
- Выбросы в данных — близкая проблема: что делать с аномально большими/малыми значениями.
- Калькулятор описательной статистики — посчитает среднее, медиану и моду по вашему столбцу.
- База методов и калькуляторов — подобрать нужный расчёт под вашу задачу.
Не уверены, удалять или заменять пропуски именно в вашей выборке, — посчитайте описательную статистику в калькуляторе, загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.