Диаграмма размаха «ящик с усами» (boxplot) для диплома
Что показывает диаграмма размаха «ящик с усами»: медиана, квартили Q1 и Q3, усы и выбросы. Как читать и построить boxplot, когда он уместен. С примерами, таблицей и FAQ.
Вы посчитали баллы по группе и получили длинный столбик чисел. Среднее и так понятно, а вот как одной картинкой показать, насколько данные «разбросаны» и есть ли среди них выскочки?
Для этого и нужна диаграмма размаха — тот самый «ящик с усами» (boxplot). Он умещает в один рисунок медиану, квартили, размах и выбросы — и сразу видно форму данных.
В двух словах
Диаграмма размаха («ящик с усами», boxplot) — это компактная картинка распределения: прямоугольник-«ящик» от Q1 до Q3 с чертой медианы внутри, «усы» до крайних типичных значений и точки-выбросы за усами.
Она незаменима, когда распределение ненормальное и среднее с σ врут, а также когда надо наглядно сравнить несколько групп. Чтобы получить медиану и квартили для построения, посчитайте их в калькуляторе описательной статистики; как они считаются — в статьях «Медиана и квартили» и «Квартиль, дециль, процентиль».
Из чего состоит «ящик с усами»
Boxplot строится на пяти числах (их так и называют — «пятичисловая сводка»): минимум, Q1, медиана, Q3, максимум. Разберём каждый элемент.
- Ящик (box). Прямоугольник от первого квартиля Q1 (нижняя граница) до третьего квартиля Q3 (верхняя). Внутри него лежит «средняя половина» данных — 50% всех наблюдений.
- Черта внутри ящика. Это медиана (Q2) — значение, которое делит выборку пополам. Не среднее! Если черта сдвинута к одному краю ящика — распределение скошено.
- Усы (whiskers). Линии от ящика до самых дальних значений, которые ещё считаются «своими», а не выбросами.
- Точки за усами. Это выбросы — нетипично большие или маленькие значения. Подробно про них — в статье «Выбросы в данных».
Высота (или длина) ящика — это межквартильный размах IQR = Q3 − Q1. Он показывает разброс «середины» данных и устойчив к выбросам, в отличие от обычного размаха.
Boxplot почти всегда рисуют горизонтально или вертикально — это дело вкуса и места на листе. Содержание одинаковое: ящик = квартили, черта = медиана, усы = типичный размах, точки = выбросы.
Как считаются усы и выбросы
Усы тянутся не до абсолютного минимума и максимума, а до «границ Тьюки» — самых дальних значений в пределах полутора межквартильных размахов от ящика. Всё, что за этими границами, рисуется отдельными точками-выбросами.
Нижняя граница = Q1 − 1,5 × IQR Верхняя граница = Q3 + 1,5 × IQR
где IQR = Q3 − Q1 — межквартильный размах. Ус дотягивается до последнего реального значения внутри границы, а не до самой границы.
Покажем на числах. Пусть по выборке: Q1 = 12, Q3 = 20, значит IQR = 20 − 12 = 8.
- Нижняя граница: 12 − 1,5 × 8 = 12 − 12 = 0.
- Верхняя граница: 20 + 1,5 × 8 = 20 + 12 = 32.
Значение 41 в этой выборке окажется выше 32 — это выброс, его рисуют точкой. А значение 30 ещё внутри границы — до него дотянется верхний ус.
Множитель 1,5 — стандарт «по Тьюки», его и берите по умолчанию. Иногда дополнительно выделяют «экстремальные» выбросы за границей 3 × IQR. Для диплома достаточно классических 1,5 — просто укажите этот критерий в тексте.
Как читать готовый boxplot
Картинка читается за несколько секунд, если знать, на что смотреть.
- Где медиана внутри ящика. По центру — распределение симметричное. Прижата к низу ящика — скос вправо (есть большие значения). Прижата к верху — скос влево.
- Длина ящика (IQR). Короткий ящик — данные плотные, однородные. Длинный — большой разброс «середины».
- Длина усов. Один ус заметно длиннее другого — распределение асимметрично в эту сторону.
- Точки за усами. Это выбросы; их стоит проверить — ошибка ввода или реальное редкое наблюдение.
Boxplot показывает медиану, а не среднее. Поэтому он честен на скошенных данных, где среднее «уезжает» к выбросам. Если в работе вы описываете распределение медианой и квартилями — иллюстрируйте именно ящиком с усами, а не столбиком среднего.
Когда «ящик с усами» уместен
Boxplot — рабочая лошадка для двух задач.
- Ненормальное распределение. Если критерий Шапиро-Уилка показал, что данные не нормальны, описывать их через среднее ± σ некорректно. Тогда берут медиану и квартили — и иллюстрируют boxplot.
- Сравнение нескольких групп. Несколько ящиков рядом на одной оси сразу показывают, у какой группы выше медиана, шире разброс, есть ли выбросы. Это идеальная картинка к критерию Манна-Уитни или Краскела-Уоллиса.
- Поиск выбросов. Точки за усами — готовый список кандидатов на проверку, не нужно вручную перебирать таблицу.
А вот для маленьких выборок (меньше 7–8 значений) boxplot почти бесполезен: квартили на 5 числах неустойчивы, и «ящик» обманывает. Тогда лучше показать сами точки.
Что писать в дипломе
Готовые формулировки — подставьте свои числа.
- «Распределение показателя представлено диаграммой размаха (boxplot): медиана 16, Q1 = 12, Q3 = 20, межквартильный размах IQR = 8».
- «Границы усов определены по критерию Тьюки (1,5 × IQR); значение 41 балл идентифицировано как выброс и проверено на ошибку измерения».
- «Сравнение групп на диаграмме размаха показало более высокую медиану и меньший разброс в экспериментальной группе (рисунок 1)».
- «Поскольку распределение по критерию Шапиро-Уилка отклонилось от нормального (p < 0,05), для описания применены медиана и квартили с визуализацией в виде ящика с усами».
Пятичисловую сводку удобно свести в таблицу и сослаться на неё.
Таблица 1 — Пятичисловая сводка по группам (баллы теста, n = 24)
| Группа | Мин | Q1 | Медиана | Q3 | Макс | IQR | Выбросы |
|---|---|---|---|---|---|---|---|
| Контрольная | 8 | 12 | 15 | 19 | 41 | 7 | 41 |
| Экспериментальная | 11 | 17 | 21 | 24 | 28 | 7 | нет |
Из таблицы видно: у экспериментальной группы медиана выше (21 против 15) при том же разбросе середины (IQR = 7), а в контрольной есть выброс 41 балл — на boxplot он окажется точкой за верхним усом.
Частые ошибки
- Путать черту в ящике со средним. Внутри ящика — медиана, а не среднее арифметическое. Это разные числа на скошенных данных.
- Думать, что усы идут до минимума и максимума. Усы тянутся до границ Тьюки; всё дальше — отдельные точки-выбросы.
- Удалять выбросы «потому что некрасиво». Выброс — это сигнал, а не мусор. Сначала проверьте, не ошибка ли это ввода, и только обоснованно решайте судьбу значения.
- Строить boxplot на 4–5 значениях. Квартили на крошечной выборке неустойчивы, ящик вводит в заблуждение.
- Рисовать ящик к нормальным данным с гистограммой. Если распределение нормальное и вы описываете его средним ± σ, уместнее гистограмма или столбик со «усами» ошибок, а не boxplot.
Частые вопросы
Чем boxplot отличается от гистограммы?
Гистограмма показывает форму распределения (сколько значений в каждом интервале), boxplot — его сводку (медиана, квартили, выбросы) компактно. Для сравнения нескольких групп удобнее ящики: они помещаются рядом на одной оси, а несколько гистограмм друг на друга не наложишь.
Что считать выбросом на диаграмме?
Классический критерий — правило Тьюки: значение выброс, если оно ниже Q1 − 1,5 × IQR или выше Q3 + 1,5 × IQR. Именно по нему рисуются точки за усами. Подробнее — в статье «Выбросы в данных».
Boxplot доказывает различие между группами?
Нет. Картинка иллюстрирует различие, но не доказывает его статистически. Если медианы на ящиках разошлись, подтвердите это критерием: для двух независимых групп — Манна-Уитни, для трёх и более — Краскела-Уоллиса.
Какие квартили брать — их же считают по-разному?
Да, методов расчёта квартилей несколько, и значения могут чуть отличаться. Возьмите тот, что даёт ваш инструмент (например, калькулятор описательной статистики), и используйте его последовательно во всей работе. Разница на больших выборках косметическая.
Можно ли показать на boxplot среднее?
Можно добавить отдельный значок (часто крестик или ромб) для среднего поверх ящика — это допустимо и иногда полезно: видно, как среднее «уехало» от медианы из-за выбросов. Но базовый boxplot строится на медиане.
Короткий алгоритм
- Посчитайте пятичисловую сводку: минимум, Q1, медиана, Q3, максимум — в калькуляторе описательной статистики.
- Найдите IQR = Q3 − Q1 и границы Тьюки: Q1 − 1,5 × IQR и Q3 + 1,5 × IQR.
- Нарисуйте ящик от Q1 до Q3 с чертой-медианой внутри.
- Протяните усы до крайних значений внутри границ; всё за ними — точки-выбросы.
- Если сравниваете группы — поставьте ящики рядом и подтвердите различие Манна-Уитни или Краскела-Уоллиса.
Коротко: ящик = от Q1 до Q3, черта = медиана, усы = до границ Тьюки (1,5 × IQR), точки = выбросы. Это лучшая картинка для ненормальных данных и для сравнения групп.
Что ещё почитать
- Медиана и квартили — как посчитать те самые числа, на которых стоит boxplot.
- Квартиль, дециль, процентиль — что такое Q1 и Q3 и как они делят выборку.
- Выбросы в данных — как находить и что делать с точками за усами.
- Описательная статистика онлайн — посчитать пятичисловую сводку автоматически.
- Критерий Манна-Уитни — подтвердить различие групп, которое видно на ящиках.
Не уверены, как описать своё распределение и построить к нему ящик с усами — посчитайте сводку в калькуляторе, загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.