科数网
首页
题库
试卷
学习
VIP
你好
游客,
登录
注册
在线学习
高中数学
第十二章:概率与统计
相关系数
最后
更新:
2025-05-27 06:06
查看:
395
次
反馈
同步训练
相关系数
散点图;相关系数
在统计活动中,我们常常需要研究来自同一对象的两个相关变量的两组数据间的关系.例如,为考察某班学生的身高与体重的关系,首先需要对每个学生的身高和体重进行测量,得到两组数据:一组是反映"身高"这个变量的数据,另一组是反映"体重"这个变量的数据.我们把这样来自同一对象的两组数据称为成对数据.研究成对数据相关性的方法称为相关分析 . ## 散点图 为了研究两个变量之间的关系,我们通常借助图象来探究. 案例 某校高二(一)班同学为检验"个子高的人,体重一定也重"这句话的准确程度,随机从本班同学中抽取了 12 名女生,测量出她们的身高与体重,得到下表所示数据:  如图 4.1-1,我们以身高的取值为横坐标,以体重的取值为纵坐标,建立直角坐标系,则每对数据 $\left(H_i, W_i\right)$ 都可在直角坐标系中用一个点 $P_i(i=1,2, \cdots, 12)$表示.这些点称为散点,由坐标系及散点形成的数据图叫作散点图.  散点图直观地描述了变量之间的关系形态,如图 4.1-2 是不同形态的散点图.  如果两个变量之间的关系近似地表现为一条直线,则称它们有线性相关关系,简称为相关关系,如图4.1-2(a)(b); 如果一个变量的取值完全依赖于另一个变量,各观测点落在一条直线上,则称它们线性相关,这实际上就是函数关系,如图4.1-2(c)(d). 由散点图 4.1-1 可以直观地看出,女生的体重随身高的增加而增加,并且这些散点大致在一条直线附近.也就是说,从大体上看,女生的身高与体重之间具有相关关系。 `例` 通过随机抽样,我们获得某种商品每千克价格(单位:百元)与该商品消费者年需求量(单位:千克)的一组调查数据,如表 8-1 所示.  请绘制上述数据的散点图,并依据散点图观察两组数据的相关性。 解 由于这两组数据分别来自同一商品的两个变量:"每千克价格"与"年需求量",因此来自这两个变量的两组数据可以看作成对数据.把"每千克价格"作为横坐标(自变量),"年需求量"作为纵坐标(因变量),在平面直角坐标系中绘制相应的点,就得到年需求量和每千克价格的散点图(图 8-1-1).  从图 8-1-1 可以看出,消费者对该商品的年需求量大体上随着价格的上升而减少,但也有一些例外的情况.例如,价格都是 4 百元,但不同年份的需求量分别是 3.5 千克和 3 千克,说明在价格不变的情况下,需求量仍可能发生变化.类似地,价格改变,需求也可能基本不变。 对例中所示的散点图,从整体上看,所有点都在一条直线的附近波动,在这种情况下,我们说两个变量之间具有一种线性相关关系.此时可以用一条直线来拟合这两组数据(图 8-1-1). ## 相关系数 通过散点图可以判断两个变量之间有无相关关系,但散点图不能准确反映变量之间的关系强度.因此,需要引人一个统计量——相关系数。 设由变量 $x$ 和 $y$ 获得的两组数据分别为 $x_i$ 和 $y_i(i=1,2, \cdots$ , $n)$ ,其对应关系如表 8-2 所示.  两组数据 $x_i$ 和 $y_i$ 的线性相关系数 是度量两个变量 $x$ 与 $y$ 之间线性相关程度的统计量,其计算公式为 $$ \boxed{ r=\dfrac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} } $$ 其中, $\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i$ ,它们分别是这两组数据的算术平均数. 线性相关系数常常简称为**相关系数**(correlation coefficient),也称为**皮尔逊相关系数**(Pearson's correlation coefficient).相关系数计算公式的推导过程比较复杂,这里不予涉及.一般情况下,只需要把两组数据输人计算机或计算器,有很多软件可以帮助我们进行这一计算。 可以证明,相关系数 $r$ 的值满足 $|r| \leqslant 1 .|r|$ 越接近 1 ,两个变量的线性相关程度越高;$|r|$ 越接近 0 ,两个变量的线性相关程度越低.$r>0$ 时,当 $x$ 的值由小变大,$y$ 的值具有由小变大的变化趋势,称这种相关为**正相关**;$r<0$ 时,当 $x$的值由小变大,$y$ 的值具有由大变小的变化趋势,称这种相关为**负相关**。 相关系数具有以下性质: (1)$r_{x y}$ 的取值范围是 $[-1,1]$ .当 $0<r_{x y}<1$ 时,称 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 正相关;当 $-1<r_{x y}<0$ 时,称 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 负相关;当 $r_{x y}=0$ 时,称 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 不相关. (2)$\left|r_{x y}\right|$ 越接近于 1 ,变量 $x, y$ 的线性相关程度越高,这时数据 $\left(x_1, y_1\right)$ , $\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right)$ 分散在一条直线附近. (3)$\left|r_{x y}\right|$ 越接近于 0 ,变量 $x, y$ 的线性相关程度越低. (4)$r_{x y}$ 具有对称性,即 $r_{x y}=r_{y x}$ . (5)$r_{x y}$ 仅仅是变量 $x$ 与 $y$ 之间线性相关程度的一个度量.$r_{x y}=0$ 只表示两个变量之间不存在线性相关关系,并不说明变量之间没有关系,它们之间可能存在非线性关系. 图 4.1-3 与图 4.1-4 分别是 $\left\{x_i\right\}$ 和 $\left\{y_i\right\}$ 之间正相关和负相关的例子,其中样本量都是
免费注册看余下 50%
非VIP会员每天15篇文章,开通VIP 无限制查看
上一篇:
百分位数
下一篇:
多组成对数据的相关性
本文对您是否有用?
有用
(
0
)
无用
(
0
)
更多
学习首页
数学试卷
同步训练
投稿
题库下载
会议预约系统
数学公式
关于
科数网是专业专业的数学网站 版权所有 本站部分教程采用AI辅助生成,请学习时自行鉴别
如果页面无法显示请联系 18155261033 或 983506039@qq.com