科数网
首页
题库
试卷
学习
VIP
你好
游客,
登录
注册
在线学习
高中数学
第十二章:概率与统计
一元线性回归直线方程与最小二乘法
最后
更新:
2025-05-27 06:22
查看:
158
次
反馈
同步训练
一元线性回归直线方程与最小二乘法
最小二乘法;一元线性回归模型
## 一元线性回归直线方程 在[上面](https://kb.kmath.cn/kbase/detail.aspx?id=2500)身高与体重案例中,我们已经判断出身高和体重这两个变量之间具有线性相关关系,于是我们希望用一条直线或一个线性函数(图象为直线的函数)来反映所给出的散点图的分布趋势。 将一把直尺的一边在图 4.1-1 的散点之间移动,使它尽量经过或靠近尽可能多的散点,然后在这一位置上作一条直线,那么这条直线就大致反映了散点图的分布趋势,如图 4.2-1.  找出与散点图中各点散布趋势相似的直线,使各点经过或充分靠近该直线,这样所得到的直线就可以比较科学地反映实际问题中两个变量之间的相关关系。这条直线叫作**回归直线**,这条直线的方程叫作**回归直线方程**。有了回归直线方程,就可以由一些变量的值去估计或预测另一些变量的值. 由散点图求出回归直线并进行统计推断的过程叫作**回归分析**。 在回归分析中,被预测或被解释的变量称为**因变量**,用 $y$ 表示.用来预测或解释因变量的变量称为**自变量**,用 $x$ 表示。 对于具有相关关系的两个变量,可以用一个线性方程来表示它们之间的关系。 如果具有相关关系的两个变量 $x, y$ 可用方程 $$ y=a+b x ...(1) $$ 来近似刻画,则称(1)式为 $y$ 关于 $x$ 的**一元线性回归方程**,其中 $a, b$ 称为**回归系数**. 由于我们是利用样本数据(一组观测值)去估计总体的回归直线方程,因而根据样本数据 $\left(x_i, y_i\right)(i=1,2, \cdots, n)$ 估计出来的回归系数一般不同于(1)式中的 $a$ , $b$ ,于是我们在 $a, b$ 的上方加记号"^",以示区别.同样,当自变量 $x$ 取值 $x_i(i=$ $1,2, \cdots, n$ )时,其相应的因变量(实际观测值)$y_i$ 与根据(1)式估计出的对应于 $x_i$的纵坐标 $y_i$ 之间一般是有区别的,因而也在 $y_i$ 的上方加记号"^"。 此时得到估计的回归直线方程形式为 $$ \boxed{ \hat{y}=\hat{a}+\hat{b} x, } $$ 它是根据样本数据求出的回归方程的估计. 由于受测量等各种因素的影响,估计值与实际观测值往往不相同.当自变量 $x$取值 $x_i(i=1,2, \cdots, n)$ 时,我们将根据回归直线方程估计出的 $\hat{y}_i$ 与实际观测值 $y_i$的误差,即 $y_i-\hat{y}_i=y_i-\left(\hat{a}+\hat{b} x_i\right)(i=1,2, \cdots, n)$ ,称为**随机误差**,记作 $e_i$ ,如图 4.2-2.  我们把 $y_i=\hat{a}+\hat{b} x_i+e_i(i=1,2, \cdots, n)$ 这一描述因变量 $y$ 如何依赖于自变量 $x$和随机误差 $e_i$ 的方程称为**一元线性回归模型**. 由于用于描述 $n$ 对观测值 $\left(x_i, y_i\right)(i=1,2, \cdots, n)$ 的直线有多条,究竟用哪条,需要一个明确的原则.我们自然会想到,应找一条与实际观测值之间的随机误差最小的直线。 ## 最小二乘法 德国著名数学家高斯提出用随机误差的平方和即 $Q=\sum_{i=1}^n\left(y_i-\hat{a}-\hat{b} x_i\right)^2$ 作为总随机误差来刻画各估计值与实际值之间的误差,他被称**作拟合误差**。.若总随机误差最小,则这条直线就是所要求的回归直线。由于平方又叫二乘方,所以这种使"随机误差平方和最小"的方法叫作**最小二乘法**. 经计算可知,若令 $\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i$ ,则 $Q$ 取最小值时 $\hat{a}, \hat{b}$ 的计算公式为 $$ \hat{b}=\dfrac{\sum_{i=1}^n x_i y_i-n \bar{x} \bar{y}}{\sum_{i=1}^n x_i^2-n \bar{x}^2}, \hat{a}=\bar{y}-\hat{b} \bar{x} $$ 此时,用最小二乘法得到的回归直线方程为$\hat{y}=\hat{a}+\hat{b} x,$ 其中 $\hat{a}$ 是回归直线在 $y$ 轴上的截距,$\hat{b}$ 是回归直线的斜率. > $(\bar{x}, \bar{y})$ 称为样本中心,回归直线一定过样本中心。 `例` 某班 5 名学生的数学和物理成绩如下表:  (1)画出散点图; (2)求物理成绩 $y$ 关于数学成绩 $x$ 的回归直线方程(回归系数保留三位小数). 解(1)散点图如图 4.2-3 所示.  (2)因为 $\bar{x}=\frac{1}{5} \times(88+76+73+66+63)=73.2$ , $$ \begin{aligned} & \bar{y}=\frac{1}{5} \times(78+65+71+64+61)=67.8 \\ & \sum_{i=1}^5 x_i y_i=88 \times 78+76 \times 65+73 \times 71+66 \times 64+63 \times 61=25054 \\ & \sum_{i=1}^5 x_i^2=88^2+76^2+73^2+66^2+63^2=27174 \end{aligned} $$ 所以 $\hat{b}=\dfrac{\sum_{i=1}^5 x_i y_i-5 \bar{x} \bar{y}}{\sum_{i=1}^5 x_i^2-5 \bar{x}^2} \approx 0.625$ , $$ \hat{a}=\bar{y}-\hat{b} \bar{x} \approx 67.8-0.625 \times 73.2=22.050 . $$ 因此 $y$ 关于 $x$ 的回归直线方程为 $\hat{y}=22.050+0.625 x$ . 求一组成对数据的回归直线方程往往涉及较大的运算量,我们可以借助计算器或计算机软件来实现这一目的。 `例` 通过随机抽样,我们获得某种商品每千克价格(单位:百元)商品消费者年需求量(单位:千克)的一组调查数据 
无用
(
0
)
更多
学习首页
数学试卷
同步训练
投稿
题库下载
会议预约系统
数学公式
关于
科数网是专业专业的数学网站 版权所有 本站部分教程采用AI辅助生成,请学习时自行鉴别
如果页面无法显示请联系 18155261033 或 983506039@qq.com