在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
实变函数
数论
群论
你好
游客,
登录
注册
在线学习
高中数学
第十二章:排列组合与概率统计
一元线性回归直线方程与最小二乘法
最后
更新:
2025-04-12 09:31
查看:
66
次
反馈
刷题
一元线性回归直线方程与最小二乘法
最小二乘法;一元线性回归模型
## 一元线性回归直线方程 在[上面](https://kb.kmath.cn/kbase/detail.aspx?id=2500)身高与体重案例中,我们已经判断出身高和体重这两个变量之间具有线性相关关系,于是我们希望用一条直线或一个线性函数(图象为直线的函数)来反映所给出的散点图的分布趋势。 将一把直尺的一边在图 4.1-1 的散点之间移动,使它尽量经过或靠近尽可能多的散点,然后在这一位置上作一条直线,那么这条直线就大致反映了散点图的分布趋势,如图 4.2-1.  找出与散点图中各点散布趋势相似的直线,使各点经过或充分靠近该直线,这样所得到的直线就可以比较科学地反映实际问题中两个变量之间的相关关系。这条直线叫作**回归直线**,这条直线的方程叫作**回归直线方程**。有了回归直线方程,就可以由一些变量的值去估计或预测另一些变量的值. 由散点图求出回归直线并进行统计推断的过程叫作**回归分析**。 在回归分析中,被预测或被解释的变量称为**因变量**,用 $y$ 表示.用来预测或解释因变量的变量称为**自变量**,用 $x$ 表示。 对于具有相关关系的两个变量,可以用一个线性方程来表示它们之间的关系。 如果具有相关关系的两个变量 $x, y$ 可用方程 $$ y=a+b x ...(1) $$ 来近似刻画,则称(1)式为 $y$ 关于 $x$ 的**一元线性回归方程**,其中 $a, b$ 称为**回归系数**. 由于我们是利用样本数据(一组观测值)去估计总体的回归直线方程,因而根据样本数据 $\left(x_i, y_i\right)(i=1,2, \cdots, n)$ 估计出来的回归系数一般不同于(1)式中的 $a$ , $b$ ,于是我们在 $a, b$ 的上方加记号"^",以示区别.同样,当自变量 $x$ 取值 $x_i(i=$ $1,2, \cdots, n$ )时,其相应的因变量(实际观测值)$y_i$ 与根据(1)式估计出的对应于 $x_i$的纵坐标 $y_i$ 之间一般是有区别的,因而也在 $y_i$ 的上方加记号"^"。 此时得到估计的回归直线方程形式为 $$ \boxed{ \hat{y}=\hat{a}+\hat{b} x, } $$ 它是根据样本数据求出的回归方程的估计. 由于受测量等各种因素的影响,估计值与实际观测值往往不相同.当自变量 $x$取值 $x_i(i=1,2, \cdots, n)$ 时,我们将根据回归直线方程估计出的 $\hat{y}_i$ 与实际观测值 $y_i$的误差,即 $y_i-\hat{y}_i=y_i-\left(\hat{a}+\hat{b} x_i\right)(i=1,2, \cdots, n)$ ,称为**随机误差**,记作 $e_i$ ,如图 4.2-2.  我们把 $y_i=\hat{a}+\hat{b} x_i+e_i(i=1,2, \cdots, n)$ 这一描述因变量 $y$ 如何依赖于自变量 $x$和随机误差 $e_i$ 的方程称为**一元线性回归模型**. 由于用于描述 $n$ 对观测值 $\left(x_i, y_i\right)(i=1,2, \cdots, n)$ 的直线有多条,究竟用哪条,需要一个明确的原则.我们自然会想到,应找一条与实际观测值之间的随机误差最小的直线。 ## 最小二乘法 德国著名数学家高斯提出用随机误差的平方和即 $Q=\sum_{i=1}^n\left(y_i-\hat{a}-\hat{b} x_i\right)^2$ 作为总随机误差来刻画各估计值与实际值之间的误差,他被称**作拟合误差**。.若总随机误差最小,则这条直线就是所要求的回归直线。由于平方又叫二乘方,所以这种使"随机误差平方和最小"的方法叫作**最小二乘法**. 经计算可知,若令 $\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i$ ,则 $Q$ 取最小值时 $\hat{a}, \hat{b}$ 的计算公式为 $$ \hat{b}=\dfrac{\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}}{\sum_{i=1}^n x_i^2-n \bar{x}^2}, \hat{a}=\bar{y}-\hat{b} \bar{x} $$ 此时,用最小二乘法得到的回归直线方程为$\hat{y}=\hat{a}+\hat{b} x,$ 其中 $\hat{a}$ 是回归直线在 $y$ 轴上的截距,$\hat{b}$ 是回归直线的斜率. > $(\bar{x}, \bar{y})$ 称为样本中心,回归直线一定过样本中心。 `例` 某班 5 名学生的数学和物理成绩如下表:  (1)画出散点图; (2)求物理成绩 $y$ 关于数学成绩 $x$ 的回归直线方程(回归系数保留三位小数). 解(1)散点图如图 4.2-3 所示.  (2)因为 $\bar{x}=\frac{1}{5} \times(88+76+73+66+63)=73.2$ , $$ \begin{aligned} & \bar{y}=\frac{1}{5} \times(78+65+71+64+61)=67.8 \\ & \sum_{i=1}^5 x_i y_i=88 \times 78+76 \times 65+73 \times 71+66 \times 64+63 \times 61=25054 \\ & \sum_{i=1}^5 x_i^2=88^2+76^2+73^2+66^2+63^2=27174 \end{aligned} $$ 所以 $\hat{b}=\dfrac{\sum_{i=1}^5 x_i y_i-5 \bar{x} \bar{y}}{\sum_{i=1}^5 x_i^2-5 \bar{x}^2} \approx 0.625$ , $$ \hat{a}=\bar{y}-\hat{b} \bar{x} \approx 67.8-0.625 \times 73.2=22.050 . $$ 因此 $y$ 关于 $x$ 的回归直线方程为 $\hat{y}=22.050+0.625 x$ . 求一组成对数据的回归直线方程往往涉及较大的运算量,我们可以借助计算器或计算机软件来实现这一目的。 `例` 通过随机抽样,我们获得某种商品每千克价格(单位:百元)商品消费者年需求量(单位:千克)的一组调查数据  依据表 8-1 给出的某种商品"年需求量"$(y)$ 与"每千克价格" ( $x$ )之间的一组观察数据以及所得到的散点图 8-1-1,我们已经知道这两个变量形成的数据点大致分布在一条直线的附近,即"年需求量"$(y)$ 与"每千克价格"$(x)$ 大致呈线性关系,因而可以用线性回归方程来刻画它们之间的数量关系。用回归系数的计算公式可求得 $\left\{\begin{array}{l}\hat{a} \approx-0.413, \\ \hat{b} \approx 4.495,\end{array}\right.$ 于是所求的回归方程为 $$ y=-0.413 x+4.495 $$ 这个方程所定义的直线即这组数据的回归直线,它是给定数据点的最佳拟合直线。 由回归方程,我们可以算出每个 $x_i$ 对应的计算值 $\hat{y}_i$(结果精确到 0.1),列表 8-4 如下:  据此可进一步算出拟合误差 $Q=\sum_{i=1}^{10}\left(y_i-\hat{y}_i\right)^2=0.7^2+$ $0.2^2+0.1^2+0.0^2+0.2^2+(-0.2)^2+(-0.5)^2+(-0.6)^2+$ $(-0.4)^2+0.6^2=1.75$ .它当然是这组数据的线性拟合中拟合误差所能达到的最小值.
其他版本
【概率论与数理统计】一元线性回归
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
多组成对数据的相关性
下一篇:
一元线性回归模型的应用
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。