StatBlank
Руководства10 июня 2026·12 мин чтения

Линейная регрессия: полное руководство с формулами и примером

Что такое линейная регрессия простыми словами: уравнение ŷ = a + b·x, метод наименьших квадратов, коэффициент детерминации R², значимость по F и t, пример с расчётом и FAQ.

Линейная регрессия нужна, когда мало знать, что два показателя связаны, — хочется по одному предсказать другой. Например, спрогнозировать балл на экзамене по числу часов подготовки или продажи по бюджету рекламы.

В этом руководстве разберём всё по порядку: что показывает линейная регрессия, чем она отличается от корреляции, как устроено её уравнение и метод наименьших квадратов, что такое коэффициент детерминации, как проверяют значимость и как оформить вывод. С разобранным примером и FAQ.

Если нужно просто посчитать — воспользуйтесь калькулятором линейной регрессии. А здесь — теория, чтобы уверенно защититься.

🧮Онлайн-калькулятор линейной регрессииПосчитайте свои данные за пару минут — нажмите, чтобы открыть

В двух словах

Линейная регрессия строит уравнение прямой, которая лучше всего описывает зависимость одной переменной от другой, и позволяет прогнозировать значения. В отличие от корреляции Пирсона, которая лишь измеряет силу связи, регрессия даёт формулу для предсказания.

  • Уравнение (парная регрессия): ŷ = a + b·x.
  • b — коэффициент регрессии: на сколько меняется Y при росте X на 1.
  • a — свободный член: значение Y при x = 0.
  • — коэффициент детерминации: какую долю разброса Y объясняет модель.
Заметка

Линейная регрессия — параметрический метод. Подробнее о делении методов — в статье «Параметрические и непараметрические критерии».

Что показывает линейная регрессия

Линейная регрессия — это статистический метод, который моделирует зависимость зависимой переменной Y (отклика, результата) от одной или нескольких независимых переменных X (предикторов, факторов) с помощью линейного уравнения. Простыми словами, она проводит прямую через облако точек так, чтобы по значению X можно было предсказать наиболее ожидаемое значение Y.

Когда предиктор один — это парная (простая) линейная регрессия с уравнением:

ŷ = a + b·x

где ŷ (читается «игрек с крышкой») — предсказанное значение Y, b — коэффициент регрессии (наклон прямой), a — свободный член (intercept).

  • Коэффициент регрессии b показывает, на сколько единиц изменится Y при увеличении X на одну единицу. Если b положительный — связь прямая (Y растёт вместе с X), если отрицательный — обратная.
  • Свободный член a — это значение ŷ при x = 0, точка пересечения прямой с осью Y. Часто он не имеет содержательного смысла (например, «балл при 0 часов подготовки»), но математически нужен для уравнения.
Y X остаток ŷ = a + b·x
Рисунок 1 — Диаграмма рассеяния и линия регрессии: модель проводит прямую так, чтобы сумма квадратов остатков была минимальной

Метод наименьших квадратов (МНК)

Как именно подбирается «лучшая» прямая? С помощью метода наименьших квадратов (МНК), по-английски OLS. Для каждой точки есть остаток — расстояние по вертикали от реального значения Y до прямой (ошибка предсказания). МНК подбирает такие a и b, чтобы сумма квадратов этих остатков была минимальной:

Σ (yᵢ − ŷᵢ)² → min

Возводят в квадрат, чтобы плюсовые и минусовые отклонения не гасили друг друга и чтобы крупные промахи штрафовались сильнее. Из этого условия выводятся рабочие формулы коэффициентов:

b = Σ(xᵢ − x̄)(yᵢ − ȳ) / Σ(xᵢ − x̄)²
a = ȳ − b·x̄
Важно

Коэффициент регрессии напрямую связан с корреляцией: b = r · (s_y / s_x), где r — коэффициент корреляции Пирсона, s_y и s_x — стандартные отклонения Y и X. То есть регрессия и корреляция считают одно и то же облако точек — просто отвечают на разные вопросы.

Чем регрессия отличается от корреляции

Это главная путаница. Оба метода работают с парами числовых значений, но решают разные задачи.

  • Корреляция измеряет силу и направление связи одним числом r от −1 до +1. Она симметрична: связь X с Y такая же, как Y с X.
  • Регрессия строит модель и предсказывает Y по X. Она асимметрична: уравнение «Y по X» и «X по Y» — разные.

Проще говоря, корреляция отвечает на вопрос «насколько сильно связаны?», а регрессия — «как именно одно зависит от другого и что будет при таком-то X?». Подробное сравнение — в статье «Корреляция или регрессия».

Осторожно

Регрессия и корреляция показывают статистическую связь, а не причину. Высокий R² не доказывает, что X вызывает Y, — это могут быть совпадение или общий третий фактор.

Коэффициент детерминации R²

Коэффициент детерминации R² показывает, какую долю разброса (дисперсии) зависимой переменной Y объясняет модель. Он меняется от 0 до 1:

  • R² = 0 — модель не объясняет ничего, прямая бесполезна;
  • R² = 1 — все точки лежат точно на прямой, идеальное предсказание;
  • чем ближе R² к 1, тем точнее модель.

Например, R² = 0,80 значит, что модель объясняет 80 % изменчивости Y, а оставшиеся 20 % — это влияние других факторов и случайность.

Заметка

Для парной регрессии есть простое соотношение: R² = r², то есть коэффициент детерминации равен квадрату коэффициента корреляции Пирсона. Если r = 0,9, то R² = 0,81.

Как проверяют значимость регрессии

Получить уравнение можно по любым данным — но надо ещё доказать, что связь не случайна.

  • Значимость уравнения в целом проверяют F-критерием (Фишера): он отвечает на вопрос, объясняет ли модель разброс Y лучше, чем простое среднее.
  • Значимость каждого коэффициента (наклона b) проверяют t-критерием: действительно ли предиктор влияет на Y.

В обоих случаях смотрят на p-значение: если p < 0,05, результат статистически значим. Если p > 0,05 — связь могла возникнуть случайно, и уравнению доверять нельзя. Что такое p-значение — в статье «Что такое p-value».

Разбор примера с расчётом

Преподаватель хочет предсказать балл на экзамене (Y) по числу часов подготовки (X). Данные по 7 студентам — в таблице 1.

Таблица 1 — Данные и промежуточные расчёты для линейной регрессии (n = 7)

X (часы) Y (балл) x − x̄ y − ȳ (x−x̄)(y−ȳ) (x−x̄)²
1 2 52 −3 −16 48 9
2 3 58 −2 −10 20 4
3 4 61 −1 −7 7 1
4 5 70 0 2 0 0
5 6 72 1 4 4 1
6 7 78 2 10 20 4
7 8 85 3 17 51 9
Σ 35 476 0 0 150 28

Средние: x̄ = 35 / 7 = 5, ȳ = 476 / 7 = 68. Подставляем суммы в формулы МНК:

b = 150 / 28 = 5,36
a = 68 − 5,36 · 5 = 41,21

Получаем уравнение регрессии:

ŷ = 41,21 + 5,36 · x

Интерпретация коэффициента регрессии: каждый дополнительный час подготовки повышает ожидаемый балл в среднем на 5,36. Коэффициент корреляции здесь r = 0,994, значит R² = r² = 0,987 — модель объясняет 98,7 % разброса баллов. Связь сильная и значимая (p < 0,05).

Прогноз. Сколько баллов ожидать у студента, который готовился 9 часов? Подставляем x = 9:

ŷ = 41,21 + 5,36 · 9 = 89,4 балла
Совет

Все эти шаги — суммы, b, a, R², F, t и готовый прогноз — за секунды считает калькулятор линейной регрессии. Вручную считают только для понимания механики.

Множественная линейная регрессия

Когда на Y влияет несколько факторов, используют множественную линейную регрессию — с несколькими предикторами:

ŷ = a + b₁·x₁ + b₂·x₂ + … + bₖ·xₖ

Например, балл может зависеть и от часов подготовки (x₁), и от посещаемости (x₂). Каждый коэффициент bᵢ показывает вклад своего фактора при прочих равных. Здесь добавляется ещё одно условие — отсутствие сильной мультиколлинеарности (предикторы не должны дублировать друг друга).

Условия применения линейной регрессии

Чтобы выводам можно было доверять, должны выполняться допущения:

  1. Линейность — связь между X и Y действительно близка к прямой (проверяют по диаграмме рассеяния).
  2. Нормальность остатков — ошибки предсказания распределены примерно нормально.
  3. Гомоскедастичность — разброс остатков одинаков по всему диапазону X (нет «воронки»).
  4. Независимость наблюдений — измерения не связаны друг с другом.
  5. Отсутствие мультиколлинеарности — для множественной регрессии предикторы не должны быть сильно связаны между собой.
Гомоскедастичность разброс ровный — хорошо Гетероскедастичность разброс растёт — проблема
Рисунок 2 — Гомоскедастичность (постоянный разброс остатков) против гетероскедастичности

Линейная регрессия в Excel и SPSS

  • В Excel есть два пути. Быстро: функция =ЛИНЕЙН(Y; X) вернёт b и a, а =ПРЕДСКАЗ.ЛИНЕЙН(x; Y; X) даст прогноз. Полный отчёт с R², F и p даёт надстройка «Пакет анализа» → «Регрессия».
  • В SPSS: «Анализ» → «Регрессия» → «Линейная», задать зависимую и независимые переменные. Программа выдаст коэффициенты, R², F и значимость.
  • Онлайн проще всего: калькулятор линейной регрессии сам построит уравнение, посчитает R², проверит значимость и оформит вывод.

Что писать в дипломе

В тексте укажите: уравнение регрессии, коэффициент детерминации R², результат проверки значимости (F и p) и содержательную интерпретацию коэффициента b.

Готовая формулировка: «Построена линейная регрессионная модель зависимости экзаменационного балла от числа часов подготовки: ŷ = 41,21 + 5,36·x. Модель статистически значима (F = 380,1; p < 0,001) и объясняет 98,7 % дисперсии результата (R² = 0,987). Каждый дополнительный час подготовки повышает ожидаемый балл в среднем на 5,36».

Частые ошибки

  • Путать регрессию с причинностью. Уравнение описывает связь, но не доказывает, что X вызывает Y.
  • Игнорировать значимость. Уравнение без проверки по F и t (p < 0,05) — это просто числа.
  • Предсказывать далеко за пределами данных. Экстраполяция за диапазон X (например, балл при 50 часах) ненадёжна.
  • Не проверять условия. Нелинейная связь или гетероскедастичность делают линейную модель некорректной.
  • Брать слишком мало наблюдений. Для устойчивой модели нужен достаточный объём данных, иначе уравнение будет неустойчивым.

Частые вопросы

Что показывает линейная регрессия простыми словами?

Она строит прямую через облако точек и по значению одного показателя (X) предсказывает наиболее ожидаемое значение другого (Y), а также показывает, на сколько меняется Y при росте X на единицу.

Чем линейная регрессия отличается от корреляции?

Корреляция измеряет силу связи одним числом и симметрична. Регрессия строит уравнение и предсказывает Y по X — она асимметрична. Подробнее в статье «Корреляция или регрессия».

Что такое коэффициент детерминации R²?

Доля разброса Y, которую объясняет модель, от 0 до 1. Для парной регрессии R² = r². Чем ближе к 1, тем точнее предсказание.

Как понять, что регрессия значима?

По p-значению F-критерия и t-критерия: если p < 0,05, уравнение и коэффициенты значимы, связь не случайна.

Что такое метод наименьших квадратов?

Способ подобрать коэффициенты прямой так, чтобы сумма квадратов отклонений реальных точек от линии была минимальной. На нём построена классическая линейная регрессия.

Сколько предикторов можно взять?

В парной регрессии один, в множественной — несколько (ŷ = a + b₁x₁ + b₂x₂ + …). Главное — чтобы предикторы не дублировали друг друга и хватало наблюдений.

Короткий алгоритм

  1. Постройте диаграмму рассеяния — убедитесь, что связь похожа на прямую.
  2. Посчитайте суммы и по формулам МНК найдите b и a — получите уравнение ŷ = a + b·x.
  3. Оцените R²: какую долю разброса Y объясняет модель.
  4. Проверьте значимость по F (всё уравнение) и t (коэффициент); нужно p < 0,05.
  5. Сделайте прогноз, подставив нужный x, и оформите вывод с уравнением, R², F и p.

Что ещё почитать

Итог

Вывод

Линейная регрессия строит уравнение ŷ = a + b·x методом наименьших квадратов и позволяет прогнозировать Y по X. Коэффициент b показывает изменение Y на единицу X, — долю объяснённого разброса, а значимость проверяют по F и t (нужно p < 0,05). В отличие от корреляции, регрессия не просто измеряет связь, а даёт модель для предсказания.

Посчитать свои данные за пару минут можно в калькуляторе линейной регрессии — он построит уравнение, оценит R², проверит значимость и оформит вывод. Полный список методов — в базе методик, а если нужна вся статистика под ключ — поможет консультация эксперта.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.

Заказать консультацию