Коэффициент детерминации R²: что показывает и как читать
Что такое коэффициент детерминации R², как перевести его в проценты, почему R² близок к нулю и что это значит для регрессии в дипломе. С примером, таблицей и FAQ.
Вы построили регрессию, и программа выдала строчку «R² = 0,71» или, наоборот, «R² = 0,03». Что с этим делать и хорошо это или плохо?
Коэффициент детерминации R² — это одно число, которое говорит, насколько хорошо ваша модель объясняет данные. Разберём, что оно показывает, как перевести его в проценты и что значит, когда коэффициент детерминации R² близок к нулю.
В двух словах
R² — это доля разброса зависимой переменной, которую объясняет модель. Меняется от 0 до 1. R² = 0,71 значит, что модель объяснила 71% разброса, а остальные 29% — это то, чего она «не увидела».
Если R² близок к нулю — модель почти ничего не объясняет, связь слабая или её нет. Посчитать R² вместе с уравнением можно в калькуляторе линейной регрессии, а пошаговый разбор всей процедуры — в руководстве по линейной регрессии.
Что показывает R²
Представьте, что вы предсказываете рост ребёнка. Без всякой модели лучший ваш прогноз — это средний рост по выборке. Ошибётесь, но не сильно.
Теперь вы добавили предиктор — возраст. Модель стала точнее: разброс вокруг прогноза уменьшился. R² измеряет, на сколько процентов вы уменьшили этот разброс по сравнению с «тупым» прогнозом по среднему.
- R² = 0 — модель не лучше среднего. Возраст ничего не добавил.
- R² = 1 — модель идеальна, все точки лежат точно на линии.
- R² = 0,6 — модель убрала 60% разброса, 40% осталось необъяснёнными.
Формально:
R² = 1 − (SS_ost ÷ SS_obshch)
где SS_ost — сумма квадратов остатков (то, что модель не объяснила), а SS_obshch — общая сумма квадратов отклонений от среднего (весь разброс). Чем меньше остатки, тем ближе R² к единице.
R² безразмерный и не зависит от единиц измерения. Хоть в килограммах, хоть в граммах — R² одинаковый. Это удобно: его можно сравнивать между разными моделями.
R² и квадрат корреляции: это одно и то же
Для парной (с одним предиктором) линейной регрессии есть простое и очень удобное правило:
R² = r²
То есть коэффициент детерминации равен квадрату коэффициента корреляции Пирсона. Если вы уже посчитали корреляцию Пирсона и получили r = 0,8, то R² = 0,64 — модель объяснит 64% разброса.
Это даёт быстрый перевод «силы связи» в «долю объяснённого»:
Таблица 1 — Связь корреляции r и детерминации R² (парная регрессия)
| r (корреляция) | R² = r² | Объяснено моделью | Как читать |
|---|---|---|---|
| 0,1 | 0,01 | 1% | связи практически нет |
| 0,3 | 0,09 | 9% | слабая связь |
| 0,5 | 0,25 | 25% | средняя связь |
| 0,7 | 0,49 | 49% | заметная связь |
| 0,9 | 0,81 | 81% | очень сильная связь |
Из таблицы видно главное: R² растёт медленнее, чем кажется по корреляции. Корреляция r = 0,5 выглядит как «половина связи», но объясняет всего четверть разброса. Поэтому r² честнее показывает реальную пользу модели, чем сам r.
Правило R² = r² работает только для парной регрессии (один предиктор). При нескольких предикторах R² уже не равен квадрату одной корреляции — его считает сама модель.
Что значит R² в процентах
Самый практичный способ прочитать R² — умножить на 100 и сказать в процентах. Это и есть формулировка для диплома.
- R² = 0,71 → «модель объясняет 71% дисперсии зависимой переменной».
- R² = 0,25 → «модель объясняет 25% разброса, остальные 75% — за счёт неучтённых факторов».
- R² = 0,04 → «модель объясняет лишь 4%, связь практически отсутствует».
«Неучтённые факторы» — это всё, что вы не положили в модель: другие переменные, случайность, ошибки измерения. В гуманитарных и спортивных исследованиях R² = 0,3–0,5 — уже хороший результат, потому что поведение человека зависит от десятков причин сразу.
Не гонитесь за высоким R². В психологии и педагогике R² = 0,2 может быть нормой, а в точной физике и 0,9 — мало. Сравнивайте свой результат с похожими работами в вашей области, а не с абстрактной «единицей».
Что значит, когда R² близок к нулю
Если коэффициент детерминации R² близок к нулю (например, 0,00–0,05), это значит, что линейная модель почти ничего не объясняет. Прогноз по уравнению регрессии не лучше, чем простой прогноз по среднему.
Причин обычно несколько:
- Связи действительно нет. Переменные не связаны — и это тоже результат, его можно честно описать.
- Связь есть, но не линейная. Например, зависимость U-образная (сначала растёт, потом падает). Прямая такую связь «не ловит», и R² близок к нулю, хотя связь сильная. Постройте диаграмму рассеяния — глазами видно сразу.
- Слишком мало данных или большой шум. На 5–7 наблюдениях R² скачет случайно.
Низкий R² ≠ ошибка в расчётах. Это нормальный, публикуемый результат: «значимой линейной связи не выявлено». Не подгоняйте данные ради красивого числа — это фальсификация. Лучше честно опишите, что связь слабая, и предположите почему.
Пример: считаем R² по регрессии
Допустим, вы изучаете связь между числом тренировок в неделю (X) и результатом в прыжке в длину (Y) у 10 спортсменов. Калькулятор выдал:
- уравнение регрессии Y = 180 + 12·X;
- коэффициент корреляции r = 0,82.
Тогда коэффициент детерминации:
R² = r² = 0,82² = 0,67
Читаем: модель объясняет 67% разброса результатов в прыжке. То есть две трети различий между спортсменами по дальности прыжка связаны с числом тренировок, а оставшаяся треть (33%) — это другие факторы: техника, рост, мотивация, врождённые данные.
Если бы корреляция оказалась r = 0,15, то R² = 0,02 — лишь 2%. Вывод был бы обратным: «число тренировок практически не объясняет различий в результате, связь незначима».
Коротко: возвели корреляцию в квадрат → получили R² → умножили на 100 → прочитали в процентах. R² = 0,67 = «модель объясняет 67% разброса».
Что писать в дипломе
Готовые формулировки — подставьте свои числа:
- «Коэффициент детерминации составил R² = 0,67, то есть модель объясняет 67% дисперсии зависимой переменной».
- «Полученное значение R² = 0,67 свидетельствует о высокой объясняющей способности модели».
- «Коэффициент детерминации R² = 0,03 близок к нулю: линейная модель объясняет лишь 3% разброса, значимой линейной связи не выявлено».
- «Поскольку R² = r², квадрат коэффициента корреляции (r = 0,82) даёт долю объяснённой дисперсии 0,67».
Уравнение регрессии и R² обычно сводят в таблицу и ссылаются на неё в тексте: «параметры модели представлены в таблице…».
Частые ошибки
- Путать R² и r. R² всегда положителен и не показывает направление связи; знак (плюс или минус) смотрят по коэффициенту регрессии или корреляции.
- Считать высокий R² доказательством причинности. R² показывает только силу связи, а не то, что X — причина Y. Причинность обосновывают логикой и планом эксперимента.
- Требовать высокий R² в любой области. Для поведения человека R² = 0,3 — уже хорошо.
- Принимать низкий R² за ошибку. «Связи нет» — это полноценный результат.
- Применять R² при явно нелинейной связи. Сначала постройте диаграмму рассеяния и убедитесь, что облако вытянуто прямой.
Частые вопросы
R² может быть отрицательным?
В обычной линейной регрессии с константой — нет, он всегда от 0 до 1. Отрицательный R² иногда возникает в моделях без свободного члена или при оценке на других данных — это сигнал, что модель хуже простого среднего.
Чем R² отличается от коэффициента корреляции?
Корреляция r показывает силу и направление связи (от −1 до +1). R² = r² показывает только долю объяснённого разброса (от 0 до 1), без направления. Подробнее о том, что когда брать, — в статье «Корреляция или регрессия».
Какой R² считается «хорошим»?
Зависит от области. В технических науках ждут 0,8–0,9, в психологии и педагогике 0,2–0,4 уже считается приемлемым. Ориентируйтесь на похожие исследования в своей теме, а не на универсальный порог.
Что такое скорректированный R²?
Это R² со «штрафом» за число предикторов. Когда переменных в модели несколько, обычный R² механически растёт от каждой новой переменной. Скорректированный R² (adjusted R²) учитывает это и не растёт от бесполезных предикторов — его и приводят в множественной регрессии.
Нужно ли проверять значимость, если R² высокий?
Да. Высокий R² на маленькой выборке может быть случайным. Значимость модели проверяют по F-критерию (его выдаёт калькулятор), а значимость связи в целом подтверждают p-значением корреляции.
Короткий алгоритм
- Постройте регрессию в калькуляторе или посчитайте корреляцию Пирсона.
- Для парной модели возведите r в квадрат: R² = r².
- Умножьте на 100 — получите долю объяснённого разброса в процентах.
- Прочитайте: близко к 1 — модель сильная; близко к 0 — связи почти нет.
- Если R² низкий, постройте диаграмму рассеяния: возможно, связь нелинейная.
- Запишите вывод словами с числом и процентом.
Что ещё почитать
- Руководство по линейной регрессии — как построить уравнение и интерпретировать его шаг за шагом.
- Корреляция или регрессия: что выбрать — в чём разница и когда что брать.
- Калькулятор линейной регрессии — посчитать уравнение и R² онлайн.
- Калькулятор корреляции Пирсона — оценить силу связи перед регрессией.
- Описательная статистика — средние и разброс по переменным.
Не уверены, как прочитать свой R² и описать модель — посчитайте всё автоматически в калькуляторе регрессии, а если нужна помощь под ключ, загляните в базу методов или закажите консультацию.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.