Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

8.2 一元线性回归

一元线性回归是统计学中的一种线性回归模型,用于建立一个因变量(也称为响应变量、被解释变量)与一个自变量(也称为解释变量)之间的线性关系。

1. 解释变量和被解释变量

一元线性回归的表达形式如下:

Yi=β0+β1Xi+uiY_i = \beta_0+\beta_1X_i+u_i
i是第i次观测,i=1,2,...,n;Yi是被解释变量,β0是截距;β1是总体回归线的斜率,ui是误差项i是第i次观测,i=1,2,...,n;Y_i是被解释变量,\beta_0是截距;\beta_1是总体回归线的斜率,u_i是误差项

输出变量 YY 被称为被解释变量、因变量、响应变量、结果,而输入变量 XX 可以被称为解释变量、自变量、预测因子。

2. 最小二乘法(OLS方法)

线性回归拟合一个具有系数的线性模型,以最小化数据集内观测目标与线性逼近预测目标之间的残差平方和。数学上,它解决了这样一个问题:

min{i=1n(YYi^)2}min\{\sum^{n}_{i=1}(Y-\hat{Y_i})^2\}

这里的 YiY_i 为观测的值,Yi^\hat{Y_i} 为预测值。

因为 Yi^\hat{Y_i} 满足直线方程:Yi^=β0+β1Xi\hat{Y_i} = \beta_0+\beta_1X_i ,代入上式后,目标函数变成:

min{i=1n(Yβ0β1Xi)2}min\{\sum^{n}_{i=1}(Y-\beta_0-\beta_1X_i)^2\}

为了最小化预测误差平方和i=1n(Yβ0β1Xi)2\sum^{n}_{i=1}(Y-\beta_0-\beta_1X_i)^2,首先将该式关于β0\beta_0β1\beta_1求偏导数,可以得到以下两个等式:

(Yiβ0β1Xi)2β0=2(Yiβ0β1Xi)\frac{\partial \sum(Y_i-\beta_0-\beta_1X_i)^2}{\partial\beta_0} = -2\sum(Y_i-\beta_0-\beta_1X_i)
(Yiβ0β1Xi)2β1=2(Yiβ0β1Xi)Xi\frac{\partial \sum(Y_i-\beta_0-\beta_1X_i)^2}{\partial\beta_1} = -2\sum(Y_i-\beta_0-\beta_1X_i)X_i

令上面2个偏导数等于零,整理后得到OLS估计量 β0^\hat{\beta_0}β1^\hat{\beta_1} 必须满足的两个方程:

Yˉβ0^β1^Xˉ=0\bar{Y}-\hat{\beta_0}-\hat{\beta_1}\bar{X}=0
1nXiYiβ0^Xˉβ1^1ni=1nXi2=0\frac{1}{n}\sum{X_i}{Y_i} - \hat{\beta_0}\bar{X}-\hat{\beta_1}\frac{1}{n}\sum^n_{i=1}X^2_i = 0

这里的 Yˉ\bar{Y}YiY_i 的均值,Xˉ\bar{X}XiX_i 的均值。

解上述关于β0^\hat{\beta_0}β1^\hat{\beta_1}的方程组,得到

β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2}
β^0=Yˉβ^1Xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}