Факторный анализ в дипломе: зачем нужен и как сделать
Факторный анализ простыми словами: зачем сводить переменные в факторы, КМО и Бартлетт, метод главных компонент, вращение Варимакс, нагрузки — с примерами и FAQ.
В дипломе по психологии или педагогике часто оказывается 20–30 переменных: пункты опросника, шкалы, показатели тестов. Описывать каждую по отдельности — долго и бессмысленно: многие из них измеряют, по сути, одно и то же. Факторный анализ позволяет свести этот ворох к 3–5 скрытым причинам и говорить о них словами.
Разберём по шагам: зачем он нужен, как проверить, что данные ему вообще подходят, сколько факторов оставить, что такое вращение и нагрузки — и какие готовые формулировки вставить в текст диплома.
В двух словах
Факторный анализ ищет за множеством коррелирующих переменных несколько скрытых обобщённых причин — факторов. Вместо «25 пунктов опросника» вы пишете «три фактора: тревожность, общительность, самоконтроль».
Перед расчётом данные проверяют мерой КМО (желательно > 0,6) и критерием Бартлетта (p < 0,05). Факторы выделяют методом главных компонент, оставляют те, у кого собственное значение > 1, а потом вращают (Варимакс), чтобы их можно было осмысленно назвать.
Делается это в SPSS, jamovi или JASP — не в Excel. А чтобы понять, какие переменные вообще связаны между собой, пригодятся калькулятор корреляции Пирсона и описательная статистика.
Зачем нужен факторный анализ
Представьте анкету из 25 вопросов. Часть из них сильно коррелируют между собой: кто высоко отвечает на один, высоко отвечает и на соседний. Это значит, что за группой вопросов стоит одна общая причина — её-то и называют фактором.
Факторный анализ решает три задачи:
- Сжатие данных. Вместо 25 переменных — 4–5 факторов, которые объясняют большую часть разброса. С ними удобнее работать и описывать.
- Поиск скрытой структуры. Метод показывает, что опросник на самом деле измеряет несколько разных свойств, а не одно.
- Проверка структуры методики. Если вы адаптируете или составляете опросник, факторный анализ подтверждает, что пункты группируются так, как вы задумали (это часть проверки валидности методики).
Фактор — это не реальный измеренный показатель, а математическая конструкция: гипотетическая причина, которая «объясняет» согласованные ответы по группе переменных. Его существование вы доказываете данными, а название придумываете сами.
Когда применять
Факторный анализ уместен, когда одновременно:
- Переменных много — хотя бы 8–10, а лучше больше. Сводить три переменные в факторы смысла нет.
- Переменные количественные — баллы шкал, тестов, пунктов опросника.
- Между переменными есть корреляции — иначе сжимать нечего.
- Выборка достаточная. Минимум — 5 испытуемых на одну переменную, а лучше 10. Для 20 переменных это 100–200 человек.
На маленькой выборке (20–30 человек) факторный анализ даёт неустойчивый результат: при добавлении пары испытуемых структура факторов может развалиться. Если выборка мала, ограничьтесь корреляционным анализом и честно напишите, что для факторного данных не хватило.
Проверка применимости: КМО и Бартлетт
Прежде чем выделять факторы, нужно убедиться, что данные для этого подходят. Для этого считают два показателя — программа выдаёт их автоматически.
Мера КМО (Кайзера–Майера–Олкина) показывает, насколько переменные связаны между собой настолько, чтобы их имело смысл объединять. Значение — от 0 до 1:
- > 0,6 — приемлемо, можно работать;
- > 0,8 — хорошо;
- < 0,5 — данные не годятся, факторный анализ делать нельзя.
Критерий сферичности Бартлетта проверяет, отличается ли корреляционная матрица от «пустой» (где связей нет). Нужно, чтобы p < 0,05 — тогда связи есть и факторизация осмысленна.
Оба условия проверяют до выделения факторов. Если КМО < 0,5 или Бартлетт незначим (p > 0,05), останавливаемся: факторный анализ применять нельзя, как бы ни хотелось.
Сколько факторов оставить
Метод выделяет столько факторов, сколько переменных, но большинство из них бесполезны. Оставляют только значимые — по двум правилам.
Критерий Кайзера. Каждый фактор имеет собственное значение (eigenvalue) — сколько дисперсии он объясняет. Оставляют факторы с собственным значением больше 1: такой фактор объясняет больше, чем одна отдельная переменная. Это правило по умолчанию во всех программах.
График каменистой осыпи (scree-plot). На нём собственные значения идут по убыванию. Сначала график круто падает, потом выходит на пологую «осыпь». Точка перелома и есть граница: всё, что до неё, — настоящие факторы, остальное — мелочь.
На практике смотрят на оба критерия сразу. Если они расходятся — ориентируются на осыпь и на то, насколько факторы получаются осмысленными.
Вращение и факторные нагрузки
Сразу после выделения факторы трудно истолковать: переменные нагружают сразу на несколько из них. Чтобы картина стала чёткой, факторы вращают.
Самый частый метод — Варимакс (varimax). Он поворачивает оси так, чтобы каждая переменная сильно нагружала на один фактор и слабо — на остальные. После вращения структура читается легко.
Факторная нагрузка — это связь переменной с фактором, число от −1 до 1 (по сути, корреляция). Чем больше модуль, тем сильнее переменная относится к фактору. Значимыми считают нагрузки примерно от 0,4–0,5: всё, что ниже, при интерпретации игнорируют.
Таблица 1 — Матрица факторных нагрузок после вращения Варимакс (выделены значимые, > 0,5)
| Переменная | Фактор 1 | Фактор 2 | Фактор 3 |
|---|---|---|---|
| Сердцебиение перед экзаменом | 0,78 | 0,12 | 0,09 |
| Беспокойство о результате | 0,74 | 0,18 | −0,05 |
| Дрожь и напряжение | 0,69 | 0,07 | 0,11 |
| Лёгкость в общении | 0,10 | 0,81 | 0,14 |
| Много знакомых | 0,05 | 0,76 | 0,08 |
| Инициатива в разговоре | 0,21 | 0,63 | 0,19 |
| Доведение дел до конца | 0,08 | 0,15 | 0,77 |
| Планирование времени | −0,11 | 0,10 | 0,71 |
По таблице видно, как пункты разбились на три осмысленные группы: тревожность, общительность и самоконтроль. Каждая переменная «весит» в одном факторе и почти не весит в других — значит, вращение сработало.
Если переменная заметно нагружает сразу на два фактора (например, 0,55 и 0,52) или ни на один (все нагрузки < 0,4), её обычно убирают из анализа и считают модель заново — структура станет чище.
Как назвать и описать факторы
Программа выдаёт факторы безымянными — «Фактор 1», «Фактор 2». Название придумываете вы, и это содержательная, а не математическая работа.
Смотрите, какие переменные сильно нагружают на фактор, и формулируете общее свойство. В нашем примере:
- Фактор 1 (сердцебиение, беспокойство, дрожь) → «Тревожность».
- Фактор 2 (лёгкость в общении, знакомые, инициатива) → «Общительность».
- Фактор 3 (доведение дел, планирование) → «Самоконтроль».
Главное правило: название должно отражать то общее, что есть в переменных с высокими нагрузками. Если осмысленного названия не находится — возможно, фактор «мусорный», и модель стоит пересчитать с другим числом факторов.
В какой программе делать
Факторный анализ требует матричных вычислений, поэтому в Excel его полноценно не сделать — нужны статистические пакеты.
- SPSS — «Анализ» → «Снижение размерности» → «Факторный анализ»; там же галочки на КМО и Бартлетт, метод главных компонент и вращение Варимакс.
- jamovi и JASP — бесплатные программы с удобным модулем «Factor» / «Exploratory Factor Analysis»; выдают КМО, Бартлетт, scree-plot и матрицу нагрузок в один экран. Как их поставить — в статье «jamovi и JASP: бесплатные программы».
Если вы только начинаете осваивать пакет, поможет статья «Первые шаги в SPSS».
Что писать в дипломе
Опишите проверку применимости, число факторов и их состав. Готовые формулировки:
Проверка применимости:
«Применимость данных для факторного анализа подтверждена: мера выборочной адекватности Кайзера–Майера–Олкина составила КМО = 0,73, критерий сферичности Бартлетта значим (χ² = 412,6; p < 0,001), что свидетельствует о наличии связей между переменными».
Число и доля объяснённой дисперсии:
«Методом главных компонент с вращением Варимакс выделено три фактора с собственными значениями больше 1, в совокупности объясняющих 64,2 % суммарной дисперсии».
Состав и названия факторов:
«Первый фактор (28,1 % дисперсии) объединил пункты с нагрузками 0,69–0,78 и был назван «Тревожность»; второй фактор (21,4 %) — «Общительность»; третий (14,7 %) — «Самоконтроль»».
Матрицу нагрузок выносят в таблицу, а scree-plot — в приложение. Как грамотно оформить эту часть, разобрано в статье «Как описать результаты статистики».
Чем отличается от корреляции и кластерного анализа
Эти три метода путают, хотя задачи у них разные.
- Корреляция показывает связь между двумя переменными — одно число. Факторный анализ обобщает корреляции многих переменных и находит за ними скрытые причины. По сути, он начинается там, где заканчивается корреляционная матрица.
- Кластерный анализ тоже группирует, но другие объекты: он объединяет в группы испытуемых (похожих людей), а факторный — переменные. Запомнить просто: факторный группирует столбцы таблицы данных, кластерный — строки.
Если задача — «разбить выборку на типы людей» (например, выделить три типа студентов по стилю обучения), это кластерный анализ, а не факторный. Факторный отвечает на вопрос «какие скрытые свойства стоят за моими переменными».
Частые ошибки
- Делать на маленькой выборке. Меньше 5 человек на переменную — результат неустойчив.
- Не проверять КМО и Бартлетт. Без них факторный анализ может оказаться бессмысленным.
- Оставлять слишком много факторов. Берите по критерию Кайзера и осыпи, а не «сколько получилось».
- Не вращать факторы. Без Варимакса нагрузки размазаны и факторы не назвать.
- Учитывать слабые нагрузки. Всё, что ниже 0,4, при интерпретации игнорируют.
- Путать с кластерным анализом. Факторный группирует переменные, кластерный — испытуемых.
Частые вопросы
Сколько человек нужно для факторного анализа?
Минимум 5 испытуемых на одну переменную, а желательно 10. Для опросника из 20 пунктов это 100–200 человек. На меньшей выборке структура факторов неустойчива.
Чем факторный анализ отличается от корреляции?
Корреляция связывает две переменные одним числом. Факторный анализ обрабатывает корреляции сразу многих переменных и находит за ними несколько скрытых факторов. Это как бы «корреляция второго уровня».
Что такое собственное значение и зачем оно?
Собственное значение (eigenvalue) показывает, сколько дисперсии объясняет фактор. По критерию Кайзера оставляют факторы со значением больше 1 — они объясняют больше, чем одна отдельная переменная.
Можно ли сделать факторный анализ в Excel?
Полноценно — нет: метод требует матричных вычислений, которых в Excel нет. Используйте SPSS, jamovi или JASP — последние две бесплатны.
Что делать, если КМО меньше 0,6?
Это сигнал, что переменные слабо связаны и факторный анализ некорректен. Можно убрать переменные с самыми низкими связями и пересчитать, либо отказаться от метода в пользу корреляционного анализа.
Короткий алгоритм
- Собрать достаточную выборку (5–10 человек на переменную) с количественными данными.
- Проверить применимость: КМО > 0,6 и Бартлетт p < 0,05.
- Выделить факторы методом главных компонент.
- Оставить факторы по критерию Кайзера (> 1) и графику осыпи.
- Повернуть факторы вращением Варимакс.
- По нагрузкам (> 0,4–0,5) определить состав и назвать каждый фактор.
- Описать в дипломе: КМО, Бартлетт, число факторов, долю дисперсии, матрицу нагрузок.
Что ещё почитать
- Корреляционная плеяда — как наглядно показать связи между переменными до факторного анализа.
- Валидность и надёжность методики — факторный анализ как часть проверки структуры опросника.
- Альфа Кронбаха — оценка согласованности пунктов внутри выделенного фактора.
- Как выбрать статистический критерий — чтобы не перепутать методы анализа.
- Как описать выборку — правильно отчитаться о размере выборки для факторного анализа.
Подобрать метод под свою задачу поможет база методов, а если нужно сделать факторный анализ и описать его под ключ — консультация эксперта.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.