科数网
数学题库
数学试卷
数学组卷
在线学习
电子教材
科数
试题
试卷
学习
教材
VIP
你好
游客,
登录
注册
在线学习
概率论与数理统计
第九篇 回归分析
一元线性回归
最后
更新:
2024-11-22 07:24
●
参与者
查看:
67
次
纠错
分享
参与项目
词条搜索
一元线性回归
## 一元线性回归模型 $x$ 可以在一定程度上决定 $y$, 但由 $x$ 的值不能准确地确定 $y$ 的值. 为了研究它们的这种关系, 对 $(x, y)$ 进行一系列观测, 得到一个容量为 $n$ 的样本 ( $x$ 取一组不完全相同的值): $\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$, 其中 $y_i$ 是 $x=x_i$ 处对随机变量 $y$ 观察的结果. 每对 $\left(x_i, y_i\right)$ 在直角坐标系中对应一个点, 把它们标在平面直角坐标系中, 称所得到的图为散点图. 如图 10.1.1 所示. 由图 10.1.1(a)可看出散点大致地围绕一条直线散布, 而图 10.1.1(b)中的散点大致围绕一条抛物线散布, 这就是变量间统计规律性的一种表现. ![图片](/uploads/2024-11/f54847.jpg) 如果图中的点像图 10.1.1(a)中那样呈直线状, 则表明 $y$ 与 $x$ 之间有线性相关关系, 可建立数学模型 $$ y=\beta_0+\beta_1 x+\varepsilon $$ 来描述它们之间的关系. 因为 $x$ 不能严格地确定 $y$, 故有一误差项 $\varepsilon$, 假设 $\varepsilon \sim N\left(0, \sigma^2\right)$, 相当于对 $y$ 做这样的正态假设, 对于 $x$ 的每一个值有 $y \sim N\left(\beta_0+\beta_1 x, \sigma^2\right)$, 其中未知数 $\beta_0 、 \beta_1$ 不依赖于 $x$ ,式(10.1.1)称为一元线性回归模型(Univariable Linear Regression Model)。 在式 (10.1.1) 中, $\beta_0 、 \beta_1$ 是待估计参数. 由样本观察值可以获得 $\beta_0 、 \beta_1$ 的估计 $\hat{\beta}_0$ 、 $\hat{\beta}_1$, 称 $$ \hat{y}=\hat{\beta}_0+\hat{\beta}_1 x $$ 为 $y$ 关于 $x$ 的经验回归函数,简称回归方程,其图形称为回归直线, $\hat{\beta}_1$ 称为回归系数. 对于给定 $x=x_0$ 后,称 $\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1 x_0$ 为回归值(在不同场合也称其为拟合值和预测值)。 10.1.2 回归系数的最小二乘估计 样本的一组观察值 $\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$, 对每个 $x_i$, 由线性回归方程(10.1.2)可以确定一回归值 $$ \hat{y}_i=\hat{\beta}_0+\hat{\beta}_1 x_i \text {, } $$ 这个回归值 $\hat{y}_i$ 与实际观察值 $y_i$ 之差 $$ y_i-\hat{y}_i=y_i-\hat{\beta}_0-\hat{\beta}_1 x_i \rightarrow y_i-\hat{y}_i=y_i-\left(\hat{\beta}_0+\hat{\beta}_1 x_i\right) $$ 刻画了 $y_i$ 与回归直线 $\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x$ 的偏离度. 一个自然的想法就是:对所有 $x_i$ ,若 $y_i$ 与 $\hat{y}_i$ 的偏离越小, 则认为直线与所有试验点拟合得越好. $$ Q\left(\beta_0, \beta_1\right)=\sum_{I=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2, $$ 记 $\beta_0$ 与 $\beta_1$ 的估计为 $\hat{\beta}_0 、 \hat{\beta}_1$, 若 $\hat{\beta}_0 、 \hat{\beta}_1$ 满足 $$ Q\left(\hat{\beta}_0, \hat{\beta}_1\right)=\min Q\left(\beta_0, \beta_1\right), $$ 则称 $\hat{\beta}_0 、 \hat{\beta}_1$ 分别为 $\beta_0 、 \beta_1$ 的最小二乘估计 (简记为 LSE). 对任意的 $\beta_0$ 与 $\beta_1$, 都有 $Q\left(\beta_0, \beta_1\right) \geqslant 0$, 且关于 $\beta_0 、 \beta_1$ 的导数存在. 因此, 对 $Q\left(\beta_0, \beta_1\right)$ 关 于 $\beta_0 、 \beta_1$ 求偏导数, 并令其为零, 得 $$ \left\{\begin{array}{l} \frac{\partial Q}{\partial \beta_0}=-2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)=0 \\ \frac{\partial Q}{\partial \beta_1}=-2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right) x_i=0 \end{array},\right. $$ 整理得 $$ \left\{\begin{array}{l} n \beta_0+\left(\sum_{i=1}^n x_i\right) \beta_1=\sum_{i=1}^n y_i \\ \left(\sum_{i=1}^n x_i\right) \beta_0+\left(\sum_{i=1}^n x_i^2\right) \beta_1=\sum_{i=1}^n x_i y_i \end{array},\right. $$ 称此为正规方程组, 解正规方程组得 $$ \left\{\begin{array}{l} \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1 \\ \hat{\beta}_1=\left(\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}\right) /\left(\sum_{i=1}^n x_i^2-n \bar{x}^2\right), \end{array}\right. $$ 其中 $\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i$ ,若记 $$ L_{x y}=\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)=\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}, \quad L_{x x}=\sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\sum_{i=1}^n x_i^2-n \bar{x}^2, $$ 则 $$ \left\{\begin{array}{l} \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1 \\ \hat{\beta}_1=L_{x y} / L_{x x} \end{array}\right. $$ 式 (10.1.3) 或 (10.1.4) 称为 $\beta_0 、 \beta_1$ 的最小二乘估计. 于是, 所求的线性回归方程为 $$ \hat{y}=\hat{\beta}_0+\hat{\beta}_1 x, $$ 若将 $\hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1$ 代入上式,则线性回归方程亦可表示为 $$ \hat{y}=\bar{y}+\hat{\beta}_1(x-\bar{x}) . $$ 式(10.1.6)表明,回归直线通过由样本观察值 $\left(x_1, y_1\right),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$ 确定的散点图的几何中心 $(\bar{x}, \bar{y})$. 回归直线是一条斜率为 $\hat{\beta}_1$ 且过点 $(\bar{x}, \bar{y})$ 的直线. 对于最小二乘估计, 还可以得到一个很重要的结论. 定理 10.1.1 若 $\hat{\beta}_0 、 \hat{\beta}_1$ 为 $\beta_0 、 \beta_1$ 的最小二乘估计, 则 $\hat{\beta}_0 、 \hat{\beta}_1$ 分别是 $\beta_0 、 \beta_1$ 的无偏估计, 且 $$ \hat{\beta}_0 \sim N\left(\beta_0, \sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{L_{x x}}\right)\right), \quad \hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{L_{x x}}\right) . $$ 证明 略. `例` 为了研究某一化学反应过程中温度 x 对产品得率 y 的影响.测得数据如下: ![图片](/uploads/2024-11/0a9a61.jpg) 求产品得率 y 关于温度 x 的回归方程. 解 为了方便,列出如下的计算表格 ![图片](/uploads/2024-11/46110e.jpg) 故 $\bar{x}=\frac{1}{10} \times 1450=145, \bar{y}=\frac{1}{10} \times 673=67.3$, 而 $$ \begin{gathered} L_{x x}=\sum_{i=1}^{10} x_i^2-10 \bar{x}^2=218500-10 \times(145)^2=8250, \\ L_{x y}=\sum_{i=1}^{10} x_i y_i-10 \bar{x} \bar{y}=101570-10 \times 145 \times 67.3=3985, \end{gathered} $$ 从而 $\hat{\beta}_1=\frac{L_{x y}}{L_{x x}}=\frac{3980}{8250}=0.483, \hat{\beta}_0=\bar{y}-\bar{x} \hat{\beta}_1=67.3-145 \times 0.483=-2.735$, 所以回归直线方程为 $\hat{y}=-2.735+0.483 x$.
上一篇:
引言
下一篇:
回归方程的显著性检验
本文对您是否有用?
有用
(
0
)
无用
(
0
)
初中数学
高中数学
高中物理
高等数学
线性代数
概率论与数理统计
复变函数
离散数学
实变函数
数论
群论
纠错
题库
高考
考研
关于
下载
科数网是专业专业的数学网站。