在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
实变函数
数论
群论
你好
游客,
登录
注册
在线学习
概率论与数理统计
第十篇 回归分析
一元线性回归
最后
更新:
2025-02-22 09:23
查看:
100
次
反馈
刷题
一元线性回归
## 一元线性回归模型 $x$ 可以在一定程度上决定 $y$, 但由 $x$ 的值不能准确地确定 $y$ 的值. 为了研究它们的这种关系, 对 $(x, y)$ 进行一系列观测, 得到一个容量为 $n$ 的样本 ( $x$ 取一组不完全相同的值): $\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$, 其中 $y_i$ 是 $x=x_i$ 处对随机变量 $y$ 观察的结果. 每对 $\left(x_i, y_i\right)$ 在直角坐标系中对应一个点, 把它们标在平面直角坐标系中, 称所得到的图为**散点图**. 如图 10.1.1 所示. 由图 10.1.1(a)可看出散点大致地围绕一条直线散布, 而图 10.1.1(b)中的散点大致围绕一条抛物线散布, 这就是变量间统计规律性的一种表现.  如果图中的点像图 10.1.1(a)中那样呈直线状, 则表明 $y$ 与 $x$ 之间有线性相关关系, 可建立数学模型 $$ y=\beta_0+\beta_1 x+\varepsilon ...(10.1.1) $$ 来描述它们之间的关系. 因为 $x$ 不能严格地确定 $y$, 故有一误差项 $\varepsilon$, 假设 $\varepsilon \sim N\left(0, \sigma^2\right)$, 相当于对 $y$ 做这样的正态假设, 对于 $x$ 的每一个值有 $y \sim N\left(\beta_0+\beta_1 x, \sigma^2\right)$, 其中未知数 $\beta_0 、 \beta_1$ 不依赖于 $x$ ,式(10.1.1)称为**一元线性回归模型**(Univariable Linear Regression Model)。 在式 (10.1.1) 中, $\beta_0 、 \beta_1$ 是待估计参数. 由样本观察值可以获得 $\beta_0 、 \beta_1$ 的估计 $\hat{\beta}_0$ 、 $\hat{\beta}_1$, 称 $$ \hat{y}=\hat{\beta}_0+\hat{\beta}_1 x ...(10.1.2) $$ 为 $y$ 关于 $x$ 的**经验回归函数**,简称**回归方程**,其图形称为**回归直线**, $\hat{\beta}_1$ 称为**回归系数**. 对于给定 $x=x_0$ 后,称 $\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1 x_0$ 为回归值(在不同场合也称其为拟合值和预测值)。 ## 回归系数的最小二乘估计 样本的一组观察值 $\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$, 对每个 $x_i$, 由线性回归方程(10.1.2)可以确定一回归值 $$ \hat{y}_i=\hat{\beta}_0+\hat{\beta}_1 x_i \text {, } $$ 这个回归值 $\hat{y}_i$ 与实际观察值 $y_i$ 之差 $$ y_i-\hat{y}_i=y_i-\hat{\beta}_0-\hat{\beta}_1 x_i \rightarrow y_i-\hat{y}_i=y_i-\left(\hat{\beta}_0+\hat{\beta}_1 x_i\right) $$ 刻画了 $y_i$ 与回归直线 $\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x$ 的偏离度. 一个自然的想法就是:对所有 $x_i$ ,若 $y_i$ 与 $\hat{y}_i$ 的偏离越小, 则认为直线与所有试验点拟合得越好. $$ Q\left(\beta_0, \beta_1\right)=\sum_{I=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2, $$ 记 $\beta_0$ 与 $\beta_1$ 的估计为 $\hat{\beta}_0 、 \hat{\beta}_1$, 若 $\hat{\beta}_0 、 \hat{\beta}_1$ 满足 $$ Q\left(\hat{\beta}_0, \hat{\beta}_1\right)=\min Q\left(\beta_0, \beta_1\right), $$ 则称 $\hat{\beta}_0 、 \hat{\beta}_1$ 分别为 $\beta_0 、 \beta_1$ 的**最小二乘估计** (简记为 LSE). 对任意的 $\beta_0$ 与 $\beta_1$, 都有 $Q\left(\beta_0, \beta_1\right) \geqslant 0$, 且关于 $\beta_0 、 \beta_1$ 的导数存在. 因此, 对 $Q\left(\beta_0, \beta_1\right)$ 关 于 $\beta_0 、 \beta_1$ 求偏导数, 并令其为零, 得 $$ \left\{\begin{array}{l} \frac{\partial Q}{\partial \beta_0}=-2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)=0 \\ \frac{\partial Q}{\partial \beta_1}=-2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right) x_i=0 \end{array},\right. $$ 整理得 $$ \left\{\begin{array}{l} n \beta_0+\left(\sum_{i=1}^n x_i\right) \beta_1=\sum_{i=1}^n y_i \\ \left(\sum_{i=1}^n x_i\right) \beta_0+\left(\sum_{i=1}^n x_i^2\right) \beta_1=\sum_{i=1}^n x_i y_i \end{array},\right. $$ 称此为正规方程组, 解正规方程组得 $$ \left\{\begin{array}{l} \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1 \\ \hat{\beta}_1=\left(\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}\right) /\left(\sum_{i=1}^n x_i^2-n \bar{x}^2\right), \end{array}\right. ...(10.1.3) $$ 其中 $\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i$ ,若记 $$ L_{x y}=\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}, \quad L_{x x}=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\sum_{i=1}^n x_i^2-n \bar{x}^2, ...(10.1.14) $$ 则 $$ \left\{\begin{array}{l} \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1 \\ \hat{\beta}_1=L_{x y} / L_{x x} \end{array}\right. $$ 式 (10.1.3) 或 (10.1.4) 称为 $\beta_0 、 \beta_1$ 的最小二乘估计. 于是, 所求的线性回归方程为 $$ \hat{y}=\hat{\beta}_0+\hat{\beta}_1 x, ...(10.1.5) $$ 若将 $\hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1$ 代入上式,则线性回归方程亦可表示为 $$ \hat{y}=\bar{y}+\hat{\beta}_1(x-\bar{x}) . ...(10.1.16) $$ 式(10.1.6)表明,回归直线通过由样本观察值 $\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$ 确定的散点图的几何中心 $(\bar{x}, \bar{y})$. 回归直线是一条斜率为 $\hat{\beta}_1$ 且过点 $(\bar{x}, \bar{y})$ 的直线. 对于最小二乘估计, 还可以得到一个很重要的结论. ### 定理 若 $\hat{\beta}_0 、 \hat{\beta}_1$ 为 $\beta_0 、 \beta_1$ 的最小二乘估计, 则 $\hat{\beta}_0 、 \hat{\beta}_1$ 分别是 $\beta_0 、 \beta_1$ 的无偏估计, 且 $$ \hat{\beta}_0 \sim N\left(\beta_0, \sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{L_{x x}}\right)\right), \quad \hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{L_{x x}}\right) . $$ 证明 略. `例` 为了研究某一化学反应过程中温度 x 对产品得率 y 的影响.测得数据如下:  求产品得率 y 关于温度 x 的回归方程. 解 为了方便,列出如下的计算表格  故 $\bar{x}=\frac{1}{10} \times 1450=145, \bar{y}=\frac{1}{10} \times 673=67.3$, 而 $$ \begin{gathered} L_{x x}=\sum_{i=1}^{10} x_i^2-10 \bar{x}^2=218500-10 \times(145)^2=8250, \\ L_{x y}=\sum_{i=1}^{10} x_i y_i-10 \bar{x} \bar{y}=101570-10 \times 145 \times 67.3=3985, \end{gathered} $$ 从而 $\hat{\beta}_1=\frac{L_{x y}}{L_{x x}}=\frac{3980}{8250}=0.483, \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1=67.3-145 \times 0.483=-2.735$, 所以回归直线方程为 $\hat{y}=-2.735+0.483 x$. > 对于非线性问题转换为线性问题最常用的是取对数,例如 $y=e^x$ 这是一个指数函数,取对数后变为 $lny=x$,如果令$\hat{y}=lny,\hat{x}=x$ ,则原本指数函数就会变成线性函数 $\hat{y}=\hat{x} $ ,在高中阶段学习的[一元线性回归应用例题2](https://kb.kmath.cn/kbase/detail.aspx?id=2503) 就演示了此方法
其他版本
【高中数学】一元线性回归模型的应用
【高中数学】回归直线方程
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
引言
下一篇:
回归方程的显著性检验
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。