StatBlank
Основы18 июня 2026·10 мин чтения

Пропуски в данных: удалить или заменить медианой

Что делать с пропусками в данных диплома: когда удалять респондента, а когда замена пропусков на медиану или среднее. Как описать решение в работе. С примерами и FAQ.

Вы собрали анкеты, забили цифры в таблицу — и в нескольких клетках пусто. Кто-то пропустил вопрос, кто-то не пришёл на второй замер, где-то стерлась цифра в бланке.

Пропуск — это не катастрофа и не повод переделывать сбор данных. Но и просто оставить пустую клетку нельзя: калькулятор либо выдаст ошибку, либо молча посчитает неправильно. Разберёмся, что с этим делать.

В двух словах

Есть два пути: удалить наблюдение целиком или заменить пропуск каким-то числом — чаще всего медианой, средним или модой. Если пропусков мало (единичные) и они случайны — обычно удаляют строку. Если удалять жалко (маленькая выборка) — заменяют: количественные данные на медиану/среднее, порядковые и категориальные на моду.

Посчитать среднее, медиану и моду по вашему столбцу можно в калькуляторе описательной статистики — он сразу даст числа для замены. А чем эти три величины отличаются и что когда брать — в статье «Среднее, медиана и мода».

Откуда вообще берутся пропуски

Пропуск — это отсутствующее значение там, где оно должно было быть. В вашей таблице это пустая ячейка, прочерк, слово «нет данных» или подозрительный ноль вместо реального измерения.

Типичные источники в студенческой работе:

  • Респондент пропустил вопрос — забыл, не понял, не захотел отвечать на личное.
  • Выпал из второго замера — заболел, ушёл из группы, не пришёл на повторное тестирование «после».
  • Ошибка при вводе — цифра не считалась с бланка, клетку забили пустой.
  • Бракованное измерение — секундомер сбился, прибор не сработал, ответ явно нечитаем.
Заметка

Важно отличать пропуск от настоящего нуля. Ноль отжиманий — это результат (человек не смог), его удалять или заменять нельзя. А вот пустая клетка «не измеряли» — это пропуск. Если в анкете 0 означает «нет ответа», замените такие нули на пустые ячейки до расчётов, иначе они занизят среднее.

Откуда пропуски — это важнее, чем кажется

Прежде чем выбирать, удалять или заменять, ответьте на один вопрос: пропуски случайны или нет?

Случайный пропуск. Человек просто пропустил вопрос, и это никак не связано с его ответами. Например, в анкете из 20 пунктов один забыли отметить. Такие пропуски безопасны — их можно и удалить, и заменить.

Неслучайный пропуск. Отсутствие ответа само о чём-то говорит. Классика: на вопрос о доходе не ответили именно люди с высоким (или очень низким) доходом. Тогда и удаление, и замена средним исказят картину — вы «выровняете» как раз тех, кто отличался.

Осторожно

Если из второго замера выпали именно слабые участники (бросили программу, потому что не пошло), — это неслучайный пропуск. Заменив их результаты средним, вы искусственно улучшите итог «после». В дипломе такой пропуск честно оговаривают, а не маскируют.

Для студенческой работы в большинстве случаев пропуски случайны и единичны — тогда годятся простые методы ниже. Но проверить, не выпала ли целая «группа риска», стоит всегда.

Путь первый: удалить наблюдение

Самый честный и простой способ — выкинуть строку с пропуском целиком (это называют «удалением по списку»).

Когда удалять:

  • пропусков мало — единицы на всю выборку (ориентир: меньше 5% строк);
  • выборка достаточно большая, чтобы потеря пары человек не была критичной (скажем, было 60, осталось 58);
  • пропуски случайны — нет подозрения, что выпала особенная группа.

Пример. В опросе участвовали 50 студентов. Двое не ответили на один вопрос. Вы удаляете этих двоих — остаётся 48 человек. Потеря 4% выборки, на выводах не скажется. Это самый защищённый от придирок вариант: вы ничего не «придумали» за респондента.

Совет

Удаляйте строку только в том анализе, где этот столбец участвует. Если человек пропустил один вопрос из десяти шкал, нет смысла выкидывать его из расчётов по остальным девяти. В дипломе тогда указывают разное n для разных показателей — это нормально.

Путь второй: заменить пропуск

Если выборка маленькая и каждый человек на счету, наблюдение жалко удалять. Тогда пропуск заполняют правдоподобным числом. Чем именно — зависит от типа данных.

Среднее (арифметическое). Подходит для количественных данных без выбросов и с симметричным распределением (рост, время, баллы теста, которые распределены ровно).

Медиана. Подходит для количественных данных, в которых есть выбросы или скос (доход, стаж, время реакции). Медиана устойчива к крайним значениям, поэтому в дипломах её берут чаще среднего — это безопасный выбор по умолчанию.

Мода (самое частое значение). Для порядковых и категориальных данных: пол, ответ по шкале «да/нет/затрудняюсь», уровень по Лайкерту. Среднее по таким данным считать бессмысленно.

Формула замены проста — в пустую клетку ставят одно число, посчитанное по остальным значениям этого же столбца:

x_пропуск = Me (или x̄, или Mo) по имеющимся значениям столбца

где Me — медиана, — среднее, Mo — мода имеющихся (непустых) значений того столбца, где образовался пробел.

Таблица 1 — Чем заполнять пропуск в зависимости от типа данных

Тип данных Пример показателя Чем заменить Почему
Количественный, симметричный рост, баллы теста среднее (x̄) отражает типичный уровень
Количественный со скосом/выбросами доход, стаж, время медиана (Me) устойчива к крайним значениям
Порядковый (шкала Лайкерта) «оцените от 1 до 5» медиана или мода среднее по баллам шкалы некорректно
Категориальный пол, «да/нет» мода (Mo) среднего у категорий нет

Из таблицы 1 видно главное правило: для числовых данных по умолчанию берите медиану, среднее — только если уверены, что распределение ровное и без выбросов; для нечисловых — моду.

Есть пропуск Пропусков мало и выборка большая? да нет Удалить строку Заменить: Me / x̄ (числа), Mo (категории)
Рисунок 1 — Как выбрать между удалением и заменой пропуска
Важно

У замены есть цена: вы вставляете «выдуманное» число, и разброс данных искусственно уменьшается. Чем больше пропусков вы заполнили, тем сильнее искажение. Поэтому замена хороша для единичных пропусков, а если пусто больше 10–15% значений столбца — данные ненадёжны, и это надо честно признать, а не латать дырки.

Развёрнутый пример с числами

Вы измеряли гибкость (наклон вперёд, см) у 10 человек. Один результат не записали:

12, 9, 15, 11, 8, 14, (пропуск), 10, 13, 9

Сначала смотрим на имеющиеся 9 значений. Считаем по ним (удобно — в калькуляторе описательной статистики):

  • сумма = 101, среднее x̄ = 101 ÷ 9 ≈ 11,2 см;
  • упорядоченный ряд: 8, 9, 9, 10, 11, 12, 13, 14, 15 → медиана Me = 11 см.

Выбросов нет, разброс небольшой — можно взять любое. Возьмём медиану как более безопасный вариант: в пустую клетку ставим 11. Теперь столбец полный, и его можно сравнивать с другим замером.

Альтернатива — удалить. Если бы выборка была побольше (например, 40 человек), проще выкинуть этого одного и считать по 39. На среднем это почти не скажется.

Вывод

Коротко на этом примере: мало данных → заменили медианой (11 см); много данных → удалили бы строку. И то, и другое — корректно, если честно описать в работе.

Что писать в дипломе

Решение про пропуски обязательно фиксируют в разделе про обработку данных. Готовые формулировки — подставьте свои числа:

  • «В ходе обработки выявлено 2 пропущенных значения (1,3% от общего объёма данных). Учитывая единичный характер пропусков, соответствующие наблюдения были исключены из анализа; итоговый объём выборки составил n = 48».
  • «Единичные пропущенные значения по шкале “гибкость” заменены медианой по имеющимся значениям показателя (Me = 11), поскольку объём выборки не позволял исключать наблюдения».
  • «Пропуски в категориальной переменной “пол” заполнены модальным значением».
  • «Пропуски носили случайный характер и не были связаны с уровнем измеряемого показателя».

Главное — назвать число пропусков, способ их обработки и причину выбора. Тогда у проверяющего не возникнет вопросов.

Частые ошибки

  • Оставить пустые клетки и нажать «посчитать». Калькулятор либо упадёт с ошибкой, либо сдвинет значения и посчитает по чужим парам. Сначала разберитесь с пропусками, потом считайте.
  • Заменить нули, которые на самом деле результат. 0 подтягиваний — это данные, а не пропуск.
  • Считать среднее по шкале «да/нет» или баллам Лайкерта. Для категорий и порядковых данных берут моду (или медиану), а не среднее.
  • Заменить средним при сильном скосе или выбросах. Среднее утянется к крайним значениям — берите медиану.
  • Латать заменой больше 10–15% столбца. Это уже не «починка», а сочинение данных. Лучше честно написать об ограничении.
  • Не упомянуть пропуски в работе вообще. Молча удалить 5 человек так, что n «не сходится» по таблицам, — повод для вопросов на защите.

Частые вопросы

Сколько пропусков можно заменить, чтобы это было прилично?

Жёсткого правила нет, но ориентир такой: единичные пропуски (до 5% значений) можно спокойно удалять или заменять. Если пусто 10–15% и больше — данные по этому показателю считаются ненадёжными, и это честнее признать как ограничение, чем заполнять.

Медиана или среднее — что брать по умолчанию?

Для диплома безопаснее медиана: она устойчива к выбросам и не «врёт» при скошенном распределении. Среднее берите, только если уверены, что данные распределены ровно и без крайних значений. Подробнее — в статье «Среднее, медиана и мода».

А если пропуск во втором замере (было «до и после»)?

Если человек прошёл «до», но выпал «после» — у вас неполная пара. Для парных критериев (Стьюдента, Вилкоксона) такую пару либо удаляют целиком, либо заполняют замену по правилам выше. Удаление пары обычно честнее: дописывать человеку результат «после», которого не было, — рискованно для выводов.

Можно ли просто удалить весь столбец, если в нём много пропусков?

Да, если показатель не ключевой для гипотезы. Если по какому-то вопросу ответила лишь половина выборки, корректнее отказаться от этого показателя, чем строить на нём выводы. Обязательно оговорите это в работе.

Считается ли замена пропусков «подтасовкой»?

Нет, если она единичная, обоснованная и описана в тексте. Это стандартный приём обработки данных. Подтасовка — это когда замену прячут или ею массово «улучшают» результат. Прозрачность всё решает.

Короткий алгоритм

  1. Найдите все пропуски и убедитесь, что это пропуски, а не настоящие нули.
  2. Оцените, случайны ли они и не выпала ли целая особенная группа.
  3. Мало пропусков + большая выборка → удалите строку (по списку или только в нужном анализе).
  4. Маленькая выборка, удалять жалко → замените: числа — медианой/средним, категории — модой (числа удобно посчитать в калькуляторе описательной статистики).
  5. Опишите в дипломе: сколько пропусков, что сделали и почему.

Что ещё почитать

Не уверены, удалять или заменять пропуски именно в вашей выборке, — посчитайте описательную статистику в калькуляторе, загляните в базу методов или закажите консультацию.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.