切换科目
重点科目
主要科目
次要科目
科数网
首页
刷题
学习
VIP会员
赞助
组卷
集合
教材
VIP
写作
游客,
登录
注册
在线学习
概率论与数理统计
第四篇 随机变量的数字特征
相关系数
最后
更新:
2025-12-11 11:06
查看:
346
次
反馈
能力测评
会员8.2元/月
赞助
相关系数
## 相关系数的定义 在 [协方差](https://kb.kmath.cn/kbase/detail.aspx?id=554) 里引入了相关系数。即有随机变量$X,Y$, 当 $D(X)>0, D(Y)>0$ 时,定义 $$ \boxed{ \rho_{X Y}=\frac{\operatorname{cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}} } $$ 为随机变量 $X$ 与 $Y$ 的**相关系数**. ## 协方差的局限性 假设我们研究**父亲身高**和**儿子身高**之间的关系。 在**中国**收集数据,身高以**厘米**为单位。 在**美国**收集相同关系的数据,身高以**英寸**为单位。 我们知道,1英寸 = 2.54厘米。两组数据的“本质关系”是完全相同的。 第一步:看协方差的问题 **问题1:量纲/单位依赖** - 在中国数据中,我们用厘米(cm)测量。假设计算得到协方差 $Cov_{\text{cn}} = 25.4$ (单位是 $cm^2$)。 - 在美国数据中,我们用英寸(in)测量。1 cm = 0.3937 in,所以同样的数据,数值会变为原来的 $0.3937$ 倍。 根据 $Cov(aX, aY) = a^2 Cov(X, Y)$,美制数据的协方差为: $$ Cov_{\text{us}} = (0.3937)^2 \times 25.4 \approx 3.94 \quad (\text{单位是 } in^2) $$ **荒谬的结果**:同一个“父子身高关系”,用厘米算协方差是25.4,用英寸算就变成了3.94。 难道换了个单位,遗传规律就变了吗?**显然不是。** 协方差的数值大小因单位不同而完全不同,**无法进行跨数据集的比较**。 **问题2:波动幅度(方差)的干扰** 假设现在研究**两个新变量**: - **变量对A**:父亲身高(cm) vs. 儿子身高(cm) $Cov_A = 25.4, \quad \sigma_X=8, \quad \sigma_Y=8.5$ - **变量对B**:父亲月收入(万元) vs. 家庭年旅行支出(万元) $Cov_B = 1.2, \quad \sigma_X=2.5, \quad \sigma_Y=0.8$ 比较:$Cov_A = 25.4$ 远大于 $Cov_B = 1.2$。 能得出结论“父子的身高相关性,比收入与旅行支出的相关性更强”吗?**绝对不能!** 因为身高本身的波动范围大(8cm的标准差),数字大,算出来的协方差自然容易大。收入和旅行支出本身数值波动小,协方差数字就小。 **协方差的大小严重受变量自身方差(波动幅度)的影响,不代表相关性更强。** **问题3:没有标准尺度,难以解释** 协方差的范围是 $(-\infty, +\infty)$。 - 当我说“协方差=100”时,它算大还是小?是强相关还是弱相关?**没有标准答案。** 无法建立像“0.8以上是强相关,0.3以下是弱相关”的统一经验法则。 ## 相关系数如何完美解决 **解决方案:标准化** 我们将每个变量“去中心化、去量纲、去幅度”: $$ X^* = \frac{X - \mu_X}{\sigma_X}, \quad Y^* = \frac{Y - \mu_Y}{\sigma_Y} $$ 这两个新变量: - 均值为0 - 标准差为1 - 无量纲 然后计算**标准化后变量**的协方差: $$ \rho = Cov(X^*, Y^*) = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} $$ 这就是**皮尔逊相关系数**。 ## 看相关系数的优越性 针对上面三个问题: 1. **消除量纲**: - 中国数据:$\rho = \frac{25.4}{8 \times 8.5} \approx 0.374$ - 美国数据:尽管单位是英寸,但 $\sigma_X^{in} = 0.3937 \times 8$,$\sigma_Y^{in} = 0.3937 \times 8.5$, $Cov_{\text{us}} = (0.3937)^2 \times 25.4$ 计算$\rho = \frac{(0.3937)^2 \times 25.4}{(0.3937 \times 8) \times (0.3937 \times 8.5)} = 0.374$ **完全相同!** 相关系数与单位无关。 2. **消除波动幅度影响**: - 变量对A:$\rho_A = 0.374$ - 变量对B:$\rho_B = \frac{1.2}{2.5 \times 0.8} = 0.6$ 现在可以公平比较了:**收入与旅行支出的相关性(0.6)高于父子身高的相关性(0.374)**。这个结论是可靠的。 3. **有明确范围和解释标准**: - 相关系数范围:$-1 \le \rho \le 1$ - $\rho = 1$:完全正线性相关(数据点在同一条向上倾斜的直线上) - $\rho = -1$:完全负线性相关 - $\rho = 0$:无线性相关 - 经验法则: $|\rho| \ge 0.8$:强相关 $0.5 \le |\rho| < 0.8$:中等相关 $|\rho| < 0.3$:弱相关 ## 相关系数的定义与性质 定义 设 $(X, Y)$ 为二维随机变量,$D(X)>0, D(Y)>0$ ,称 $$ \frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}} $$ 为随机变量 $X$ 和 $Y$ 的相关系数(Correlation Coefficient)或标准协方差(Standard Covariance)。记为 $\rho_{X Y}
免费注册 查看余下70%
《高等数学》难点解析
高数教程
泰勒公式
切线与法线
切平面与法平面
驻点·拐点·极值点·零点
间断点
渐进线
瑕积分
欧拉方程
伯努利方程
Abel 收敛定理
偏导数的几何意义
偏导数的几何意义
梯度
数量场与向量场
多元函数极值
拉格朗日算子
通量与散度
环流量与旋度
格林公式
高斯公式
斯托克斯公式
三大公式比较
傅里叶级数
极坐标微元
点法式方程
变上限定积分
X型计算面积
Y型计算面积
微分的意义
渐近线
间断点
y''+py'+qy=f(x)方程
高斯
黎曼
傅里叶变换(复数)
拉普拉斯变换(复数)
高等数学测评
函数与极限
一元函数微分学
一元函数积分学
微分方程
空间向量与代数
多元微分学
多元积分学
无穷级数
《线性代数》难点解析
线代教程
近世代数对数学的整体思考
线性的意义
矩阵乘法(列视角)
矩阵乘法(行视角)
矩阵左乘
矩阵右乘
逆矩阵求解方程组
阶梯形矩阵的求法
方程组解的判定
四阶行列式的计算
线性变换的意义
线性空间
向量组的等价
线性空间的几何意义
基础解系的求法
施密特正交化
特征值与特征向量的意义
矩阵相似的几何意义
矩阵可对角化的理解
秩的意义(向量版)
秩的意义(方程版)
二次型的意义
线性代数测评
行列式
矩阵
向量空间
《概率论与数理统计》难点解析
概率教程
置信区间与上a分位数
概率中的“取”与“放”
贝叶斯公式
全概率公式
泊松分布
指数分布
伽玛分布
二维密度图的意义
卷积的意义
相关系数的意义
k阶矩是与矩母函数
卡方分布的作用
单正态区间估计理解
假设检验理解
切比雪夫不等式
中心极限定理
概率统计测评
事件与概率
一维随机变量与事件
多维随机变量与事件
随机变量的数字特征
大数定律与中心极限定理
统计量与抽样分布
参数估计
假设检验
上一篇:
协方差
下一篇:
变异系数
本文对您是否有用?
有用
(
0
)
无用
(
0
)
学习首页
数学试卷
同步训练
投稿
会议预约系统
数学公式
关于
Mathhub
赞助我们
科数网是专业专业的数学网站 版权所有
本站部分教程采用AI制作,请读者自行判别内容是否一定准确
如果页面无法显示请联系 18155261033 或 983506039@qq.com