在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
实变函数
数论
群论
你好
游客,
登录
注册
在线学习
高中数学
第十二章:排列组合与概率统计
相关系数
最后
更新:
2025-04-12 09:19
查看:
345
次
反馈
刷题
相关系数
散点图;相关系数
在统计活动中,我们常常需要研究来自同一对象的两个相关变量的两组数据间的关系.例如,为考察某班学生的身高与体重的关系,首先需要对每个学生的身高和体重进行测量,得到两组数据:一组是反映"身高"这个变量的数据,另一组是反映"体重"这个变量的数据.我们把这样来自同一对象的两组数据称为成对数据.研究成对数据相关性的方法称为相关分析(correlation analysis). ## 散点图 为了研究两个变量之间的关系,我们通常借助图象来探究. 案例 某校高二(一)班同学为检验"个子高的人,体重一定也重"这句话的准确程度,随机从本班同学中抽取了 12 名女生,测量出她们的身高与体重,得到下表所示数据:  如图 4.1-1,我们以身高的取值为横坐标,以体重的取值为纵坐标,建立直角坐标系,则每对数据 $\left(H_i, W_i\right)$ 都可在直角坐标系中用一个点 $P_i(i=1,2, \cdots, 12)$表示.这些点称为散点,由坐标系及散点形成的数据图叫作散点图.  散点图直观地描述了变量之间的关系形态,如图 4.1-2 是不同形态的散点图.  如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系,简称为相关关系,如图4.1-2(a)(b); 如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,则称它们线性相关,这实际上就是函数关系,如图4.1-2(c)(d). 由散点图 4.1-1 可以直观地看出,女生的体重随身高的增加而增加,并且这些散点大致在一条直线附近.也就是说,从大体上看,女生的身高与体重之间具有相关关系。 `例` 通过随机抽样,我们获得某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的一组调查数据,如表 8-1 所示.  请绘制上述数据的散点图,并依据散点图观察两组数据的相关性。 解 由于这两组数据分别来自同一商品的两个变量:"每千克价格"与"年需求量",因此来自这两个变量的两组数据可以看作成对数据.把"每千克价格"作为横坐标(自变量),"年需求量"作为纵坐标(因变量),在平面直角坐标系中绘制相应的点,就得到年需求量和每千克价格的散点图(图 8-1-1).  从图 8-1-1 可以看出,消费者对该商品的年需求量大体上随着价格的上升而减少,但也有一些例外的情况.例如,价格都是 4 百元,但不同年份的需求量分别是 3.5 千克和 3 千克,说明在价格不变的情况下,需求量仍可能发生变化.类似地,价格改变,需求也可能基本不变。 对例中所示的散点图,从整体上看,所有点都在一条直线的附近波动,在这种情况下,我们说两个变量之间具有一种线性相关关系.此时可以用一条直线来拟合这两组数据(图 8-1-1). ## 相关系数 通过散点图可以判断两个变量之间有无相关关系,但散点图不能准确反映变量之间的关系强度.因此,需要引人一个统计量——相关系数。 设由变量 $x$ 和 $y$ 获得的两组数据分别为 $x_i$ 和 $y_i(i=1,2, \cdots$ , $n)$ ,其对应关系如表 8-2 所示.  两组数据 $x_i$ 和 $y_i$ 的线性相关系数 是度量两个变量 $x$ 与 $y$ 之间线性相关程度的统计量,其计算公式为 $$ \boxed{ r=\dfrac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} } $$ 其中, $\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i$ ,它们分别是这两组数据的算术平均数. 线性相关系数常常简称为**相关系数**(correlation coefficient),也称为**皮尔逊相关系数**(Pearson's correlation coefficient).相关系数计算公式的推导过程比较复杂,这里不予涉及.一般情况下,只需要把两组数据输人计算机或计算器,有很多软件可以帮助我们进行这一计算。 可以证明,相关系数 $r$ 的值满足 $|r| \leqslant 1 .|r|$ 越接近 1 ,两个变量的线性相关程度越高;$|r|$ 越接近 0 ,两个变量的线性相关程度越低.$r>0$ 时,当 $x$ 的值由小变大,$y$ 的值具有由小变大的变化趋势,称这种相关为**正相关**;$r<0$ 时,当 $x$的值由小变大,$y$ 的值具有由大变小的变化趋势,称这种相关为**负相关**。 相关系数具有以下性质: (1)$r_{x y}$ 的取值范围是 $[-1,1]$ .当 $0<r_{x y}<1$ 时,称 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 正相关;当 $-1<r_{x y}<0$ 时,称 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 负相关;当 $r_{x y}=0$ 时,称 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 不相关. (2)$\left|r_{x y}\right|$ 越接近于 1 ,变量 $x, y$ 的线性相关程度越高,这时数据 $\left(x_1, y_1\right)$ , $\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$ 分散在一条直线附近. (3)$\left|r_{x y}\right|$ 越接近于 0 ,变量 $x, y$ 的线性相关程度越低. (4)$r_{x y}$ 具有对称性,即 $r_{x y}=r_{y x}$ . (5)$r_{x y}$ 仅仅是变量 $x$ 与 $y$ 之间线性相关程度的一个度量.$r_{x y}=0$ 只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系. 图 4.1-3 与图 4.1-4 分别是 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 之间正相关和负相关的例子,其中样本量都是 50 .   统计经验告诉我们,当 $r_{x y}>0.8$ 时,$y$ 有随着 $x$ 的增加而增加的趋势,这时我们认为 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 是高度正相关的;当 $r_{x y}<-0.8$ 时,$y$ 有随着 $x$ 的增加而减少的趋势,这时我们称 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 是高度负相关的。 `例` 计算本节案例中身高 $H$ 与体重 $W$ 之间的相关系数(结果保留三位小数).  解 由题意可得 $$ \bar{H}=165.5, \bar{W}=55 $$ $$ \begin{aligned} s_H & =\sqrt{\frac{1}{12} \sum_{i=1}^{12}\left(H_i-\bar{H}\right)^2} \\ & =\sqrt{\frac{1}{12}\left[(159-165.5)^2+(160-165.5)^2+\cdots+(172-165.5)^2\right]} \approx 4.213, \\ s_W & =\sqrt{\frac{1}{12} \sum_{i=1}^{12}\left(W_i-\bar{W}\right)^2} \\ & =\sqrt{\frac{1}{12}\left[(52-55)^2+(52-55)^2+\cdots+(57-55)^2\right]} \approx 1.947, \\ s_{H W} & =\frac{H_1 W_1+H_2 W_2+\cdots+H_{12} W_{12}}{12}-\bar{H} \bar{W} \end{aligned} $$ $$ =\frac{1}{12}(159 \times 52+160 \times 52+\cdots+172 \times 57)-165.5 \times 55=7.875, $$ 于是相关系数 $\quad r_{H W}=\frac{s_{H W}}{s_H s_W}=\frac{7.875}{4.213 \times 1.947} \approx 0.960>0.8$ . 这说明身高 $H$ 和体重 $W$ 高度正相关,即高二女生体重随着身高的增高而增加. ## 相关系数的几何意义 观察相关系数 $r$ 的计算公式 $$ r=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \sum_{i=1}^n\left(y_i-\bar{y}\right)^2}}, ...(1) $$ 你是否觉得似曾相识? 在学习向量时,我们曾经给出过两个向量的夹角公式.下面以空间向量为例,来看看两个空间向量的夹角公式与公式(1)的联系.设 $\vec{x}=\left(x_1, x_2, x_3\right), \vec{y}=\left(y_1, y_2, y_3\right)$ ,那么它们夹角的余弦为 $$ \cos \langle\vec{x}, \vec{y}\rangle=\frac{x_1 y_1+x_2 y_2+x_3 y_3}{\sqrt{\left(x_1^2+x_2^2+x_3^2\right)\left(y_1^2+y_2^2+y_3^2\right)}}=\frac{\sum_{i=1}^3 x_i y_i}{\sqrt{\sum_{i=1}^3 x_i^2 \sum_{i=1}^3 y_i^2}} . $$ 从结构上看,这两个公式是一样的.如果把两组数据 $x_i, ~ y_i(i=1,2, \cdots, n)$ 看作两个 $n$ 维向量 $\vec{x}=\left(x_1, x_2, \cdots, x_n\right), ~ \vec{y}=\left(y_1, y_2, \cdots, y_n\right)$ ,并记由这两组数据的平均数构成的两个 $n$ 维向量分别是 $\vec{x}=(\bar{x}, \bar{x}, \cdots, \bar{x})$ 及 $\vec{y}=(\bar{y}, \bar{y}, \cdots, \bar{y})$ ,那么比较公式(1)和向量的夹角公式可以发现:$r=\cos \langle\vec{x}-\vec{x}, \vec{y}-\vec{y}\rangle$ ,这说明相关系数 $r$ 其实就是两个向量 $\vec{x}-\vec{x}$ 与 $\vec{y}-\vec{y}$ 的夹角的余弦值.余弦值越接近 1 或 -1 ,意味着这两个向量越接近平行,散点图中的点更多地落在同一条直线的附近,说明这两组数据的变化方向接近相同或相反,正相关或负相关的程度越高;余弦值越接近 0 ,意味着这两个向量越接近垂直,表示这两组数据的相关程度越低。此外,两组数据 $x_i, ~ y_i(i=1,2, \cdots, n)$ 之所以分别减去各自的平均数,相应地得到差向量 $\vec{x}-\vec{x}$ 与 $\vec{y}-\vec{y}$ ,从几何上看是在作一个平移变换,而用统计学的说法,则相应于做了一个数据中心化的处理.
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
百分位数
下一篇:
多组成对数据的相关性
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。