切换科目
重点科目
主要科目
次要科目
科数网
首页
刷题
学习
VIP会员
赞助
组卷
集合
教材
VIP
写作
游客,
登录
注册
在线学习
概率论与数理统计
第六篇 统计学和抽样分布
卡方分布χ²★★★★★
最后
更新:
2026-01-03 10:12
查看:
454
次
反馈
能力测评
会员8.2元/月
赞助
卡方分布χ²★★★★★
> 假设车间生产了一批螺丝,你想检验这些产品质量情况,你随机抽查了一些螺丝,此时就可以使用统计抽样的四大分布是:正态分布、卡方分布、t分布和F分布,他们分别对应 Z检验、卡方检验、t检验和F检验。 如果你抽查的样本比较多(n>30)优先使用**Z检验**(对应[正态分布](https://kb.kmath.cn/kbase/detail.aspx?id=532)),如果抽查样本比较少(n<20)则使用**t检验**(对应[t分布](https://kb.kmath.cn/kbase/detail.aspx?id=568)),如果你想比较两个机床生产的螺丝质量差异则使用**F检验**(对应[F分布](https://kb.kmath.cn/kbase/detail.aspx?id=569))。如果像分析螺丝质量和原材料质量的关系则使用**χ²卡方检验**(对应[卡方分布](https://kb.kmath.cn/kbase/detail.aspx?id=567)) > χ²分布、t分布、F分布的主要用途,其实不是拿来用于自然现象的建模,而是用于假设检验用的。只有正态分布既可以进行建模又可以进行检验 ### 引例1 想象你在一个射击场,靶心是零点。你是一个神枪手,每次射击的着弹点都围绕靶心随机分布,但基本不会脱靶。 1. **标准正态分布(Z)**:这就像你**单次射击**的着弹点位置。它可能偏左(负值)或偏右(正值),但大部分时间都在靶心附近。它的分布是对称的(像一口钟)。 2. **卡方分布**:现在,我们不再关心着弹点是偏左还是偏右(正负号)。我们只关心你**打得“偏”了多少**。怎么衡量?我们用着弹点**到靶心距离的平方**(Z²)来衡量。 为什么用平方?因为平方能把所有偏差(无论左右)都变成正数,并且放大了大偏差的影响(比如,偏差为3,平方后是9,比偏差为1的平方1大得多)。 3. **自由度(k)**:现在,我们进行多轮射击。**自由度(k)就是你射击的次数**。 比如,你射击了3次(k=3),分别记录了3个着弹点距离靶心的平方距离:$Z_1^2,Z_2^2,Z_3^2$ 。 然后把这三个平方距离**加起来**,得到一个总和:$Q=Z_1^2+Z_2^2+Z_3^2$。 **这个总和 Q 服从的就是自由度为 3 的卡方分布(χ²(3))**。 #### 结论1 从引例1我们大致能得到卡方分布图像的特点(结合比喻) **形状不对称(向右偏)**:这很好理解。你打了3枪,总的偏差(Q)可能很小(三枪都接近靶心),但也可能因为某一枪脱靶很远,导致总偏差变得非常大。所以,图像有一个长长的“右尾巴”,表示虽然概率小,但总偏差出现很大值的可能性是存在的(见下图)。 **自由度越大,图像越“正”**:如果你打了10枪(k=10),根据“大数定律”,某一枪特别离谱的情况会被其他打得准的枪平均掉。总偏差Q的分布会变得更集中、更对称,慢慢趋近于正态分布。就像你投掷很多次硬币,正面比例会越来越接近50%。 {width=400px} ### 引例2 想象你在玩掷骰子的游戏,每掷一次就记录下来点数。如果你掷了很多次,比如几百甚至几千次,你可能会好奇:**我得到的这些点数分布,是否真的是公平的**?即每个点数出现的概率都是相同的?卡方分布就是用来回答这类问题的一个工具。**它能帮助我们检验观察到的数据与预期数据之间是否有显著差异**。例如你有一个骰子,掷了 600 次,想检验它是否是公平的。理论上,每个面出现的次数应该是 100 次,实际观察到的次数可能是 $[95,105,93,107,100,100]$ ,通过卡方检验可以判断这种偏差是否在可接受范围内,这被称作拟合优度检验。 #### 总结2 从引例2可以看到卡方分布的作用,以**特定概率**分布为某种情况在进行数学建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常的小幅度波动?还是建模错误?此时,利用卡方分布分析结果,排除可疑结果。【事实与期望不符合情况下使用卡方分布进行检验】 例1和例2本质都反映了一个重要公式 $$ { \sum \dfrac{(\text { 观察值 }- \text { 预期值 })^2}{\text { 预期值 }} } $$ 现在我们对上面公式进行抽象,改写为 $$ \boxed{ \chi_c^2=\sum \frac{\left(O_i-E_i\right)^2}{E_i} } $$ 用于卡方检验的卡方统计量。 c:自由度。O:观测值。E:期望值。 这个等式是什么意思?为什么这个公式是卡方检验的检验统计量? > **提示:检验统计量看起来类似于方差公式 $\sum\left(x_i-\mu\right)^2 / n$ 。** 卡方检验统计量基本上是观察值与期望值之间标准化的平方差之和。之所以说它是标准化的,是因为它将平方差除以预期值,就像任何典型的标准化一样。基本上,这个检验统计量可以告诉你观测值与预期值的偏差有多大。 ## $\chi^2$卡方分布 **定义** 设 $X_1, \cdots, X_n$ 是独立同分布的随机变量,且都服从标准正态分布 $N(0,1)$ , 则称随机变量 $Y = X_1^1+X_2^2+...+X_n^2=\sum_{i=1}^n X_i^2$ 所服从的分布为自由度为 $n$ 的 $\chi^2$ 分布,记为 $Y \sim \chi^2(n)$. 可以使用引例1中打靶为例进行理解,根据大数定律,打靶的偏差服从正态分布,其平方和则服从卡方分布。 > **卡方分布是衡量实际观察到的结果 和 理论期望的结果之间总差距的一个标尺** **卡方检验的核心思想**:如果这个总差距(经过某种计算后)服从或近似服从卡方分布,就说明差距很可能是由随机波动造成的。如果这个总差距大得离谱(落在了卡方分布那个很长的右尾巴极端区域),我们就认为“事情不对劲”,可能不是随机波动,而是真的有某种规律或关联。 你可以把卡方分布想象为 > **一个专门用来衡量“意外”或“偏差”的尺子。当“意外”大到用这把尺子量都觉得不可思议时,我们就认为真的发生了一些不寻常的事,而不仅仅是随机运气**。 ## 卡方分布的密度函数 $\chi^2(n)$ 分布的概率密度为 $$ f(y)=\left\{\begin{array}{ll} \dfrac{1}{2^{n / 2} \Gamma(n / 2)} y^{\frac{n}{2}-1} e^{-\frac{1}{2} y}, & y>0 \\ 0, & y \leqslant 0 \end{array},\right. $$ 其中, $\Gamma(\cdot)$ 为 Gamma 函数, $f(y)$ 的图形如图 所示. 下图分别是当 $n=1,4,9$ 时的概率密度函数图形. 是偏峰的倒钟形.  (1)$n=1$与$n=2$ 和后面$n=3,4,5...$的曲线完全不同。 (2)$n$越大,越接近正态分布。 自由度是指上式右端所包含的独立变量的个数 ## 卡方分布的可加性 1.如果 $\chi_1^2 \sim \chi^2\left(n_1\right), \chi_2^2 \sim \chi^2\left(n_2\right)$ ,且它们相互独立,则有 $$ \chi_1^2+\chi_2^2 \sim \chi^2\left(n_1+n_2\right) . $$ 这一性质称为 $\chi^2$ 分布的**可加性**. ### 理解卡方分布的可加性 他的数学证明略,这里从实例上理解卡方可加性的意义。 假设你是一家全国性公司的质量总监,旗下有2家分公司生产产品,你要监测不同工厂生产零件的尺寸偏差。偏差用卡方分布来衡量(即标准化的偏差平方和)。 **华东工厂**:工厂质量经理随机抽取了 $ m = 5 $ 个零件进行检测。他计算了这5个零件尺寸的标准化偏差平方和(即每个零件的偏差除以标准尺寸后平方,再加起来),这个总和 $ X $ 服从 **自由度为5的卡方分布**,记作 $ X \sim \chi^2(5) $。 这个自由度5可以理解为:这份报告包含了基于**5个独立数据点**计算出的总偏差信息。 **华南工厂**:另一位经理也独立地随机抽取了 $ n = 3 $ 个零件进行检测。同样,他算出了3个零件的标准化偏差平方和 $ Y \sim \chi^2(3) $。 两份报告是**独立**完成的,工厂、样本、测量都互不干扰。 **合并报告(可加性发生)** 现在,你想看**整个公司**(华东+华南)的总偏差情况。一个很自然的做法是:把两份报告的总偏差加起来,即 $ Z = X + Y $。 **可加性告诉我们**:这个新的总和 $ Z $ 服从 **自由度为 (5 + 3) = 8 的卡方分布**,即 $ Z \sim \chi^2(8) $。 为什么可以这样直接加? 这要从卡方分布的本质来理解。回忆一下: $ X \sim \chi^2(5) $ 的本质是:$ X = Z_1^2 + Z_2^2 + Z_3^2 + Z_4^2 + Z_5^2 $ (5个独立的标准正态变量的平方和)。 $ Y \sim \chi^2(3) $ 的本质是:$ Y = Z_6^2 + Z_7^2 + Z_8^2 $ (3个独立的标准正态变量的平方和)。 由于 $ X $ 和 $ Y $ 独立,意味着这8个标准正态变量 $ Z_1, Z_2, ..., Z_8 $ 全都是相互独立的。 因此,总和 $ Z = X + Y $ 其实就是: $$ Z = (Z_1^2 + Z_2^2 + Z_3^2 + Z_4^2 + Z_5^2) + (Z_6^2 + Z_7^2 + Z_8^2) = Z_1^2 + Z_2^2 + ... + Z_8^2 $$ 根据定义,**8个独立标准正态变量的平方和,当然就服从自由度为8的卡方分布**。 所以,可加性的直观理解就是:把两份独立的“偏差平方和”报告合并,新报告的信息量(自由度)就是两份旧报告信息量(自由度)的简单相加。 ## 卡方分布的数学期望与方差 $ \chi^2(n) $ 的**期望是 $n$**,而**方差是 $2n$**。 最直观的推导(利用定义和性质),这是最好理解、最常用的方法。 第1步:回忆卡方分布的定义 如果 $ Z_1, Z_2, \dots, Z_n $ 是相互独立的**标准正态分布**随机变量(即 $ Z_i \sim N(0,1) $),那么随机变量 $X$: $$ X = Z_1^2 + Z_2^2 + \dots + Z_n^2 $$ 就服从自由度为 $n$ 的卡方分布,记作 $ X \sim \chi^2(n) $。 所以,求 $X$ 的期望和方差,本质上就是求这个平方和的期望和方差。 第2步:计算期望 $E[X]$ 1. **期望的线性性质**:和的期望等于期望的和。 $$ E[X] = E[Z_1^2 + Z_2^2 + \dots + Z_n^2] = E[Z_1^2] + E[Z_2^2] + \dots + E[Z_
其他版本
【概率论与数理统计】拟合优度检验
【概率论与数理统计】卡方分布χ²-前世今生-Part5
【概率论与数理统计】单正态总体方差的假设检验(卡方检验)
【高中数学】独立检验
【概率论与数理统计】卡方分布χ²-前世今生-Part4
【概率论与数理统计】卡方分布χ²-拟合度检验-Part2
【概率论与数理统计】卡方分布χ²-独立检验-Part1
【概率论与数理统计】附录5:卡方分布表
免费注册 查看余下70%
《高等数学》难点解析
高数教程
泰勒公式
切线与法线
切平面与法平面
驻点·拐点·极值点·零点
间断点
渐进线
瑕积分
欧拉方程
伯努利方程
Abel 收敛定理
偏导数的几何意义
偏导数的几何意义
梯度
数量场与向量场
多元函数极值
拉格朗日算子
通量与散度
环流量与旋度
格林公式
高斯公式
斯托克斯公式
三大公式比较
傅里叶级数
极坐标微元
点法式方程
变上限定积分
X型计算面积
Y型计算面积
微分的意义
渐近线
间断点
y''+py'+qy=f(x)方程
高斯
黎曼
傅里叶变换(复数)
拉普拉斯变换(复数)
高等数学测评
函数与极限
一元函数微分学
一元函数积分学
微分方程
空间向量与代数
多元微分学
多元积分学
无穷级数
《线性代数》难点解析
线代教程
近世代数对数学的整体思考
线性的意义
矩阵乘法(列视角)
矩阵乘法(行视角)
矩阵左乘
矩阵右乘
逆矩阵求解方程组
阶梯形矩阵的求法
方程组解的判定
四阶行列式的计算
线性变换的意义
线性空间
向量组的等价
线性空间的几何意义
基础解系的求法
施密特正交化
特征值与特征向量的意义
矩阵相似的几何意义
矩阵可对角化的理解
秩的意义(向量版)
秩的意义(方程版)
二次型的意义
线性代数测评
行列式
矩阵
向量空间
《概率论与数理统计》难点解析
概率教程
置信区间与上a分位数
概率中的“取”与“放”
贝叶斯公式
全概率公式
泊松分布
指数分布
伽玛分布
二维密度图的意义
卷积的意义
相关系数的意义
k阶矩是与矩母函数
卡方分布的作用
单正态区间估计理解
假设检验理解
切比雪夫不等式
中心极限定理
概率统计测评
事件与概率
一维随机变量与事件
多维随机变量与事件
随机变量的数字特征
大数定律与中心极限定理
统计量与抽样分布
参数估计
假设检验
上一篇:
偏度系数与峰度系数
下一篇:
t分布★★★★★
本文对您是否有用?
有用
(
0
)
无用
(
0
)
学习首页
数学试卷
同步训练
投稿
会议预约系统
数学公式
关于
Mathhub
赞助我们
科数网是专业专业的数学网站 版权所有
本站部分教程采用AI制作,请读者自行判别内容是否一定准确
如果页面无法显示请联系 18155261033 或 983506039@qq.com