Руководства19 июня 2026·11 мин чтения

Кластерный анализ в дипломе: как разбить выборку на группы

Кластерный анализ простыми словами: иерархический и k-средних, стандартизация, число кластеров, как назвать и проверить группы — с примерами и FAQ.

Иногда в дипломе нужно не сравнить готовые группы, а создать их: разбить испытуемых на однородные типы по нескольким признакам сразу. Например, выделить среди студентов «тревожных перфекционистов», «спокойных середняков» и «уверенных лидеров». Эту задачу решает кластерный анализ.

В этом руководстве разберём по шагам: зачем нужен кластерный анализ, чем иерархический метод отличается от k-средних, почему перед расчётом обязательно нормировать переменные, как выбрать число кластеров, как их описать и назвать, как доказать, что группы реально различаются, — и что писать в дипломе.

В двух словах

Кластерный анализ группирует испытуемых в однородные кластеры по близости их профилей сразу по нескольким переменным. Это инструмент типологии: на выходе вы получаете 2–4 группы людей и их «портреты» по средним значениям. Делается в SPSS или бесплатной jamovi. После выделения кластеры обязательно сравнивают статистикой — ANOVA или критерием Краскела-Уоллиса — чтобы подтвердить различия.

Важно

Главное, что путают студенты. Кластерный анализ группирует ИСПЫТУЕМЫХ (строки таблицы — людей). Факторный анализ группирует ПЕРЕМЕННЫЕ (столбцы — вопросы, шкалы). Если вам нужны «типы людей» — это кластерный. Если «скрытые факторы за пунктами анкеты» — факторный.

Зачем нужен кластерный анализ

Кластерный анализ применяют, когда заранее неизвестно, на какие группы делится выборка, и вы хотите найти это деление по данным. Типичные задачи диплома:

Типологии. Выделить психологические типы: например, типы родительского отношения, стили совладания, профили мотивации.
Профили. Сгруппировать испытуемых по сочетанию показателей — не по одному признаку, а по их комбинации.
Сегментация выборки. Разбить респондентов на условные «целевые группы» для дальнейшего сравнения.

Ключевое слово — сразу по нескольким признакам. Если бы вы делили людей по одному показателю (скажем, по уровню тревожности на «высокий/средний/низкий»), хватило бы простой группировки по процентилям и стенам. Кластерный анализ нужен именно тогда, когда признаков несколько и важна их комбинация.

Заметка

Кластерный анализ — метод разведочный (exploratory). Он не проверяет заранее заданную гипотезу, а ищет структуру в данных. Поэтому полученные кластеры всегда нужно осмыслить содержательно, а не принимать механически.

Иерархический метод и k-средних

Двух методов хватает на 99% дипломных работ. Они решают одну задачу, но по-разному.

Иерархический кластерный анализ. Строит «дерево» объединений: сначала каждый испытуемый — отдельный кластер, затем на каждом шаге сливаются два ближайших, пока все не объединятся в один. Результат рисуется в виде дендрограммы — древовидной схемы слияний. Число кластеров заранее задавать не нужно — вы выбираете его, глядя на дерево.

Метод Варда (Ward) — самый частый способ объединения: он сливает кластеры так, чтобы минимально росла внутригрупповая дисперсия. Даёт компактные группы примерно равного размера.
Евклидово расстояние — стандартная мера близости между испытуемыми (обычная «геометрическая» дистанция в пространстве признаков). Связка «метод Варда + квадрат евклидова расстояния» — рабочий выбор по умолчанию.

Метод k-средних (k-means). Здесь число кластеров k вы задаёте заранее. Алгоритм случайно ставит k центров, относит каждого испытуемого к ближайшему центру, пересчитывает центры как средние групп и повторяет, пока разбиение не стабилизируется. Работает быстрее иерархического и хорош для больших выборок.

Совет

Классическая связка для диплома. Сначала иерархическим методом по дендрограмме определяете, сколько кластеров напрашивается. Затем это число подставляете в k-средних, чтобы получить чёткое финальное разбиение и центры кластеров. Так вы используете сильные стороны обоих методов.

Стандартизация: без неё всё сломается

Это самый частый провал в дипломах с кластерным анализом. Расстояние между испытуемыми считается по всем переменным сразу, поэтому переменная с большим разбросом единиц перетянет результат на себя.

Представьте, что вы кластеризуете людей по двум признакам: возраст (20–60 лет) и уровень тревожности по шкале (1–10 баллов). Возраст измеряется десятками, тревожность — единицами. Евклидово расстояние почти полностью определит возраст, а тревожность просто не будет «слышна». Кластеры получатся по возрасту, хотя вы этого не хотели.

Решение — привести все переменные к одной шкале перед анализом. Чаще всего используют z-оценки (стандартизацию): из каждого значения вычитают среднее и делят на стандартное отклонение. После этого у каждой переменной среднее = 0, разброс = 1, и все они «весят» одинаково.

Осторожно

Если переменные в разных единицах (баллы, годы, проценты, секунды), стандартизация обязательна. В SPSS это галочка «Преобразовать значения → Стандартизировать → Z-оценки» прямо в окне иерархического анализа. Пропустите её — и кластеры будут отражать не психологию, а просто масштаб самой «крупной» переменной.

Сколько кластеров выделить

Число кластеров — главное решение, которое принимаете вы, а не программа. Два ориентира.

Дендрограмма. На древовидной схеме ищите самый «длинный» горизонтальный скачок — место, где для следующего слияния пришлось преодолеть резко большее расстояние. Мысленная вертикальная линия, проведённая через этот разрыв, и отсекает число кластеров. Чем выше точка слияния, тем «насильственнее» объединение.

Осмысленность. Формальный критерий — не закон. 5 кластеров статистически «чище», но если три из них вы не можете содержательно описать и назвать — берите меньше. В дипломе 2–4 кластера почти всегда оптимальны: их легко интерпретировать и защитить.

Рисунок 1 — Срез дендрограммы по самому длинному скачку даёт три кластера

Как описать и назвать кластеры

Кластеры с номерами «1, 2, 3» в дипломе никому не интересны. Ваша задача — превратить числа в портреты.

Для этого считают средние значения каждой переменной по каждому кластеру (программа выдаёт их автоматически, в k-средних это «конечные центры кластеров»). Дальше смотрите, по каким признакам кластер выделяется — высокими или низкими средними, — и даёте группе говорящее название.

Разберём пример. Допустим, вы кластеризовали 90 студентов по трём шкалам (тревожность, мотивация достижения, самооценка) и получили три кластера. Их профили — в таблице 1.

Таблица 1 — Профили кластеров по средним значениям шкал (n = 90)

Шкала	Кластер 1 (n = 34)	Кластер 2 (n = 31)	Кластер 3 (n = 25)
Тревожность	7,8 (высокая)	4,1 (средняя)	3,2 (низкая)
Мотивация достижения	8,2 (высокая)	5,0 (средняя)	7,6 (высокая)
Самооценка	4,0 (низкая)	5,2 (средняя)	8,1 (высокая)
Название	«Тревожные старатели»	«Спокойные середняки»	«Уверенные лидеры»

Логика названий видна сразу: кластер 1 — высокая мотивация при высокой тревоге и низкой самооценке; кластер 3 — такая же сильная мотивация, но на фоне спокойствия и уверенности. Это и есть содержательный результат кластерного анализа.

Совет

Называйте кластеры по тем 2–3 признакам, которые их сильнее всего различают, а не по всем сразу. Хорошее имя кластера — короткое и узнаваемое: научный руководитель должен понять тип с первого прочтения.

Проверка различий статистикой

Назвать кластеры мало — нужно доказать, что они действительно различаются по показателям, а не кажутся вам разными. Для этого кластер становится группирующей переменной, и вы сравниваете группы обычными методами.

Если переменных-критериев несколько и данные количественные близки к нормальным — по каждой шкале проводят однофакторный дисперсионный анализ (ANOVA): он покажет, значимо ли отличаются средние трёх кластеров.
Если данные — баллы анкет или распределение далеко от нормального — берут непараметрический критерий Краскела-Уоллиса.

Что выбрать в спорной ситуации — разобрано в статье «Как выбрать статистический критерий». Значимый результат (p < 0,05) по каждой ключевой шкале — это доказательство, что разбиение на кластеры осмысленно.

Заметка

В SPSS таблицу ANOVA метод k-средних выдаёт автоматически — рядом с центрами кластеров. Но помните: эти F-значения в k-means носят описательный характер (кластеры специально подбирались под максимальные различия), поэтому корректнее проверять различия отдельным запуском ANOVA или Краскела-Уоллиса.

Что писать в дипломе

Опишите процедуру и результат по шагам — готовые формулировки:

Метод: «Для выделения типологических групп проведён кластерный анализ. Переменные предварительно стандартизированы (z-оценки). Иерархическим методом (метод Варда, квадрат евклидова расстояния) по дендрограмме определено оптимальное число кластеров — три. Окончательное разбиение выполнено методом k-средних».
Результат: «Выявлены три кластера испытуемых: "Тревожные старатели" (n = 34), "Спокойные середняки" (n = 31) и "Уверенные лидеры" (n = 25), различающиеся сочетанием тревожности, мотивации и самооценки».
Проверка: «Различия между кластерами по всем трём шкалам статистически значимы (ANOVA, p < 0,05), что подтверждает содержательную обоснованность типологии».

Обязательно приведите таблицу профилей (как таблица 1) и дендрограмму — это основная иллюстрация раздела. Как грамотно свести всё в текст — в статьях «Как описать результаты статистики» и «Сводная таблица результатов».

Частые ошибки

Не стандартизировать переменные. Кластеры получаются по самой «крупной» по единицам шкале, а не по сути. Самая частая и грубая ошибка.
Путать с факторным анализом. Кластерный группирует людей, факторный — переменные. Это разные задачи.
Гнаться за числом кластеров. 6 кластеров, которые невозможно назвать, хуже трёх осмысленных.
Не проверять различия статистикой. Без ANOVA или Краскела-Уоллиса кластеры — просто ваша интерпретация, а не доказанный факт.
Оставлять кластеры безымянными. «Кластер 2» ничего не говорит читателю — нужен содержательный портрет.

Частые вопросы

Чем кластерный анализ отличается от факторного?

Кластерный анализ группирует испытуемых (строки данных — людей) в типы по близости их профилей. Факторный анализ группирует переменные (столбцы — пункты анкеты) в скрытые факторы. Если нужны «типы людей» — кластерный; если «что стоит за вопросами теста» — факторный.

Сколько кластеров выбрать?

Ориентируйтесь на дендрограмму (самый длинный скачок слияния) и на осмысленность. Для диплома почти всегда оптимальны 2–4 кластера: их легко описать, назвать и защитить. Большее число обычно невозможно содержательно интерпретировать.

Нужно ли стандартизировать данные перед кластерным анализом?

Да, если переменные в разных единицах (баллы, годы, проценты). Без стандартизации (z-оценок) расстояние определит переменная с самым большим разбросом, и кластеры получатся бессмысленными. В SPSS это галочка прямо в окне анализа.

В какой программе делать кластерный анализ?

В SPSS («Анализ → Классификация → Иерархический кластерный анализ» и «Кластеризация k-средних») или в бесплатной jamovi/JASP. Excel для этого не приспособлен. Если только начинаете — загляните в «Первые шаги в SPSS».

Как доказать, что кластеры действительно различаются?

Сравните кластеры по каждой ключевой шкале статистическим критерием: ANOVA для нормальных количественных данных или Краскела-Уоллиса для баллов и ненормальных. Значимость p < 0,05 подтверждает обоснованность типологии.

Короткий алгоритм

Отберите признаки — несколько переменных, по которым делите выборку.
Стандартизируйте их (z-оценки), если единицы разные.
Иерархический анализ (метод Варда, евклидово расстояние) → постройте дендрограмму.
Определите число кластеров по дендрограмме и осмысленности (обычно 2–4).
k-средних с этим k → получите финальное разбиение и центры.
Опишите профили по средним и дайте кластерам говорящие названия.
Проверьте различия по каждой шкале (ANOVA или Краскел-Уоллис).
Оформите таблицу профилей и дендрограмму в текст диплома.

Что ещё почитать

Как описать выборку — с чего начинается практическая часть.
Стандартное отклонение и дисперсия — основа стандартизации (z-оценок).
Дисперсионный анализ (ANOVA) — чем проверять различия кластеров.
jamovi и JASP бесплатно — бесплатная альтернатива SPSS для кластерного анализа.
Как выбрать статистический критерий — какой тест взять для проверки.

Вывод

Кластерный анализ разбивает испытуемых на однородные группы по сочетанию признаков. Порядок: стандартизировать переменные → иерархическим методом по дендрограмме найти число кластеров → k-средними получить разбиение → описать и назвать кластеры по средним → доказать различия ANOVA или Краскелом-Уоллисом. В отличие от факторного анализа, он группирует людей, а не переменные.

Подобрать метод под свою задачу поможет база методов, а если нужна вся статистика для диплома под ключ — консультация эксперта.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.