在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
实变函数
数论
群论
你好
游客,
登录
注册
在线学习
概率论与数理统计
第七篇 统计量和抽样分布
卡方分布
最后
更新:
2025-02-22 10:54
查看:
315
次
反馈
刷题
卡方分布
> 开发分布主要用于卡方检验,可以先记住结论,再来查看卡方分布,详见 [卡方检验](https://kb.kmath.cn/kbase/detail.aspx?id=583) ### 引入 ①假设你是一个初中中学的校长,有一天,你希望了解一下全校初一年级学生的平均身高,学校初一年级共10个班级,为了减少干扰,你随机找了三个初一班级的班主任,记做$X_1,X_2,X_3$,告诉他们,统计一下该班里学生的平均身高。 这3个年级每个班都有100人,班主任为了不干扰学生学习同时又能完成上面给的任务,因此,3个班主任随机从对应班级里找10名徐学生测量他们的身高: $$ X_1=\{x|1.65,1.68,1.7,1.6,1.58,1.66,1.66,1.67,1.69,1.65 \} $$ $$ X_2=\{x|1.75,1.72,1.54,1.60,1.66,1.66,1.66,1.67,1.68,1.65 \} $$ $$ X_3=\{x|1.6,1.61,1.7,1.66,1.64,1.65,1.66,1.67,1.68,1.9 \} $$ 我们知道,学生的身高基本上是服从正态分布的,现在我们要做的是,怎么能通过现有的数据来推出初一学生的平均身高呢?毫无疑问,在推出全体的身高时,希望误差越小越小,为此,我们就需要研究一下$Y=X_1^2+X_2^2+X_3^2$ 是一个什么分布 ②想象你在玩掷骰子的游戏,每掷一次就记录下来点数。如果你掷了很多次,比如几百甚至几千次,你可能会好奇:我得到的这些点数分布,是否真的是公平的?即每个点数出现的概率都是相同的?卡方分布就是用来回答这类问题的一个工具。它能帮助我们检验观察到的数据与预期数据之间是否有显著差异。例如你有一个骰子,掷了 600 次,想检验它是否是公平的。理论上,每个面出现的次数应该是 100 次,实际观察到的次数可能是 $[95,105,93,107,100,100]$ ,通过卡方检验可以判断这种偏差是否在可接受范围内,这被称作拟合优度检验。 再如想分析性别(男,女)与喜好颜色 (红,蓝)是否相关。通过收集数据,构建一个列联表,然后使用卡方检验来分析性别与颜色偏好是否独立。 > 这里为什么要使用$X^2$,这是因为,在上面引例里数据都是正的,但是比如测量物体长度,误差可正可负,为了防止正负抵消,所以使用平方进行分析。 > 在参数统计推断问题中,常需利用总体的样本构造出合适的统计量,统计量既然是样本的函数,那么它是一个随机变量,且有分布. 统计量的分布称为抽样分布. 当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的. 本节介绍来自正态总体的几个常用的统计量的分布 ## 卡方分布的作用 以**特定概率**分布为某种情况在进行数学建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常的小幅度波动?还是建模错误?此时,利用卡方分布分析结果,排除可疑结果。【事实与期望不符合情况下使用卡方分布进行检验】 比如:抽奖机,肯定都不陌生,现在一些商场超市门口都有放置。正常情况下出奖概率是一定的,基本商家收益。倘若突然某段时间内总是出奖,甚是反常,那么到底是某阶段是小概率事件还是有人进行操作了?抽奖机怎么了?针对这种现象或者类似这种现象问题则可以借助卡方进行检验,暂且不着急如何检验,还是补充一下基础知识,再逐步深入解决问题。【常规事件中出现非常规现象,如何检查问题所在的情况下使用卡方分布】 > 我们在高中数学里介绍过独立检验[详细请点击此处](https://kb.kmath.cn/kbase/detail.aspx?id=2504) ,其中的例题就使用了卡方检验,当时直接使用的是结论,并没给出证明。 ## $\chi^2$卡方分布 ### 定义 设 $X_1, \cdots, X_n$ 是独立同分布的随机变量,且都服从标准正 态分布 $N(0,1)$ , 则称随机变量 $Y = X_1^1+X_2^2+...+X_n^2=\sum_{i=1}^n X_i^2$ 所服从的分布为自由度为 $n$ 的 $\chi^2$ 分布,记为 $Y \sim \chi^2(n)$. (1)$n=1$与$n=2$ 和后面$n=3,4,5...$的曲线完全不同。 (2)$n$越大,越接近正态分布。 自由度是指上式右端所包含的独立变量的个数 > $\chi^2$卡方分布里的二次方是一个**整体**,从定义可以看到他是$X^2$的和,为了保持“**量纲**”一致,所以用的是$\chi^2$,不能拆成$\chi * \chi$ ### 密度函数 $\chi^2(n)$ 分布的概率密度为 $$ f(y)=\left\{\begin{array}{ll} \dfrac{1}{2^{n / 2} \Gamma(n / 2)} y^{\frac{n}{2}-1} e^{-\frac{1}{2} y}, & y>0 \\ 0, & y \leqslant 0 \end{array},\right. $$ 其中, $\Gamma(\cdot)$ 为 Gamma 函数, $f(y)$ 的图形如图 所示. 下图分别是当 $n=1,4,9$ 时的概率密度函数图形. 是偏峰的倒钟形.  ### 自由度 卡方分布一个重要参数是自由度,也就是是由几个正态函数相加的。从上图可以看到,自由度为1,2和 3,4,5... 很不同,而且自由度越大,越接近正态分布。 比如我要调查“吸烟和肺癌”的关系,那么这个关系应该有四个关系: ①吸烟患肺癌 ②吸烟不患肺癌 ③不吸烟患肺癌 ④不吸烟不患肺癌 此时,就可以使用自由度为4的卡方分布。 详见[此处](https://kb.kmath.cn/kbase/detail.aspx?id=2504) ## $\chi^2$ 分布的性质 由定义可知,若 $X_1, X_2$ 相互独立且都服从 $N(0,1)$ ,则 (1) $X_1^2 \sim \chi^2(1)$ (2) $2 X_2^2 \sim \chi^2(1)$ (3) $X_1^2+X_2^2 \sim \chi^2(2)$. ### $\chi^2$ 分布性质 (1)**$\chi^2$的数学期望与方差**。当 $Y \sim \chi^2(n)$ 时, $E(Y)=n, D(Y)=2 n$ ; (2) **$\chi^2$ 分布的可加性** 设 $X \sim \chi^2(m), Y \sim \chi^2(n)$ ,且 $X$ 与 $Y$ 相互独立,则 $X+Y \sim \chi^2(m+n)$. 证明:(1): $E(Y)=n, D(Y)=2 n$ 由 $\chi^2$ 分布定义知 $$ \begin{aligned} E(Y) & =E\left(\sum_{i=1}^n X_i^2\right)=\sum_{i=1}^n E\left(X_i^2\right) \\ & =n\left(D\left(X_1\right)+E^2\left(X_1\right)\right)=n \\ D(Y) & =D\left(\sum_{i=1}^n X_i^2\right)=\sum_{i=1}^n D\left(X_i^2\right) \\ & =n\left(E\left(X_1^4\right)-E^2\left(X_1^2\right)\right)=n(3-1)=2 n \end{aligned} $$ (3): 设 $X \sim \chi^2(m), Y \sim \chi^2(n)$ , 且 $X$ 与 $Y$ 相互独立 由 $\chi^2$ 分布定义知 $X=\sum_{i=1}^m X_i^2 ; Y=\sum_{i=1}^n Y_i^2 ,$ 其中 $X_1, \cdots, X_m, Y_1, \cdots, Y_n$ 都是相互独立的标准正态分布 则: $$ X+Y=\sum_{i=1}^m X_i^2+\sum_{i=1}^n Y_i^2 \sim \chi^2(m+n) . $$ ## $\chi^2$ 分布的分位数 设 $X \sim \chi^2(n)$ ,记它的 $\alpha$ 分位数为 $\chi_\alpha^2(n)$ ,即 $\chi_\alpha^2(n)$ 满足 $P\left(X \leq \chi_\alpha^2(n)\right)=\alpha$. 见图示. 分位数值可查表得到,比如 $\chi_{0.95}^2(4)=9.488$  下表给出概率值$p$与$\chi^2$关系表。通常用$p=0.05$作为阈值,即95%的可信度。 卡方分布的分位数和正态分布的分位数意思一样,详细点击[附录1:置信区间与上$\alpha$ 分位数](https://kb.kmath.cn/kbase/detail.aspx?id=1641) ### 卡方分布表 卡方分布重在运用,因此需要能掌握 [附录4:卡方分布表](https://kb.kmath.cn/kbase/detail.aspx?id=1495) 下面给出的是简表。  `例` 设 $X_1, \cdots, X_6$ 是来自总体 $N(0,1)$ 的样本, 又设 $$ Y=\left(X_1+X_2+X_3\right)^2+\left(X_4+X_5+X_6\right)^2, $$ 试求常数 $C$, 使 $C Y$ 服从 $\chi^2$ 分布. 解 因为 $X_1+X_2+X_3 \sim N(0,3), \quad X_4+X_5+X_6 \sim N(0,3)$ 所以 $$ \frac{X_1+X_2+X_3}{\sqrt{3}} \sim N(0,1), \quad \frac{X_4+X_5+X_6}{\sqrt{3}} \sim N(0,1), $$ 且相互独立,于是 $$ \left(\frac{X_1+X_2+X_3}{\sqrt{3}}\right)^2+\left(\frac{X_4+X_5+X_6}{\sqrt{3}}\right)^2 \sim \chi^2(2) $$ 故应取 $C=\frac{1}{3}$, 则有 $\frac{1}{3} Y \sim \chi^2(2)$. ## 例题 `例`设 $\left(X_1, X_2, \cdots, X_6\right)$ 是取自总体 $N(0,1)$ 的简单随机样本, 求下列三个统计量的分布 (1) $X_1^2+X_2^2$; (2) $X_1^2$; (3) $Q=X_1^2+a\left(X_2+X_3\right)^2+b\left(X_4-X_5+X_6\right)^2$ 解: (1) 由样本的定义可知, $X_1, X_2, \cdots, X_6$ 相互独立,且都服从 $N(0,1)$ , 所以根据 $\chi^2$ 分布的定义可知 $X_1^2+X_2^2 \sim \chi^2(2)$ ; (2) 同上, $X_1^2 \sim \chi^2(1)$ ; (3) $X_2+X_3 \sim N(0,2) \Rightarrow \frac{X_2+X_3}{\sqrt{2}} \sim N(0,1)$, $$ X_4-X_5+X_6 \sim N(0,3) \Rightarrow \frac{X_4-X_5+X_6}{\sqrt{3}} \sim N(0,1) \text {, } $$ 且 $X_1, \frac{1}{\sqrt{2}}\left(X_2+X_3\right), \frac{1}{\sqrt{3}}\left(X_4-X_5+X_6\right)$ 相互独立, 再由 $\chi^2$ 分布的定义 $$ X_1^2+\left(\frac{X_2+X_3}{\sqrt{2}}\right)^2+\left(\frac{X_4-X_5+X_6}{\sqrt{3}}\right)^2 \sim \chi^2(3) . $$ 可得 $a=\frac{1}{2}, b=\frac{1}{3}$ `例`设 $X_1, \cdots, X_n$ 是来自正态总体 $N\left(0, \sigma^2\right)$ 的样本,试证: (1) $\frac{1}{\sigma^2} \sum_{i=1}^n X_i^2 \sim \chi^2(n)$; (2) $\frac{1}{n \sigma^2}\left(\sum_{i=1}^n X_i\right)^2 \sim \chi^2(1)$ 证明 (1) $\frac{X_i}{\sigma}, i=1, \cdots, n$ 独立同分布于 $N (0,1)$ ,由 $\chi^{\prime}$ 分布的定义, $\sum_{i=1}^n\left(\frac{X_i}{\sigma}\right)^2 \sim \chi^2(n)$ ,即 $\frac{1}{\sigma^2} \sum_{i=1}^n X_i^2 \sim \chi^2(n)$. (2)易见, $\sum_{i=1}^n X_i \sim N\left(0, n \sigma^2\right)$ ,即 $\frac{\sum_{i=1}^n X_i}{\sqrt{n \sigma^2}} \sim N(0,1)$ ,由 $\chi^2$ 分布的定义, $\left(\frac{\sum_{i=1}^n X_i}{\sqrt{n \sigma^2}}\right)^2 \sim \chi^2(1)$ ,即 $\frac{1}{n \sigma^2}\left(\sum_{i=1}^n X_i\right)^2 \sim \chi^2(1)$. `例` 设 $\left(X_1, X_2, \cdots, X_n\right)$ 是取自总体 $X \sim \chi^2(n)$ 的一个样本, 定义 $\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i$ ,试求 $E(\bar{X}), D(\bar{X})$. 解 由 $\chi^2$ 分布性质知 $E(X)=n, D(X)=2 n$, 故 $$ E(\bar{X})=E\left(\frac{1}{n} \sum_{i=1}^n X_i\right)=\frac{1}{n} \sum_{i=1}^n E\left(X_i\right)=n . $$ 由 $\chi^2$ 分布性质知 $E(X)=n, D(X)=2 n$, 故 $$ \begin{aligned} D(\bar{X}) & =D\left(\frac{1}{n} \sum_{i=1}^n X_i\right)=\frac{1}{n^2} D\left(\sum_{i=1}^n X_i\right) \\ & =\frac{1}{n^2} \sum_{i=1}^n D\left(X_i\right)=\frac{1}{n} D(X)=2 . \end{aligned} $$ ## 卡方分布和正态分布的区别 一个随机变量$Z$总是与一个概率分布有关。当一个随机变量经历数学变换后,基本的概率分布就不再保持不变了。考虑一个随机变量 $Z \sim N\left(\mu=0, \sigma^2=1\right)$ ,其遵循标准正态分布。现在,如果该随机变量被平方化(一种数学变换),那么 $Z^2$ 就不再是标准正态分布了。新转换的分布被称为自由度为 1 的卡方分布(Chi-Squared)分布。$Z$和 $Z^2$ 的分布如下所示。随机变量$Z$的平均值为 $E (Z)=0$ ,对于变换后的变量 $Z^2$ ,其均值为 $E\left(Z^2\right)=1$ 。 {width=500px} 同样,随机变量Z的方差是 $D(Z)=1$ ,而转换后的随机变量 $Z^2$ 的方差是 $D\left(Z^2\right)=2$ 。除了平均值和方差,分布的形状也发生了变化。变换后的变量 $Z^2$ 的分布不再是对称的了。事实上,分布是向一边倾斜的。此外,随机变量 $Z^2$ 只能取正值,而随机变量Z也可以取负值(注意上图中两幅图的X轴)。由于新的变换只基于一个参数(Z),所以这个变换的自由度是1。 因此,转换后的随机变量 $Z^2$ 遵循卡方分布,有1个自由度。假设 $Z_1, Z_2, \ldots, Z_k$ 是遵循标准正态分布的独立随机变量, $Z_k \sim N(0,1)$ ,那么变换 $$ \chi_k^2=Z_1^2+Z_2^2+\ldots+Z_k^2 $$ 是一个具有k个自由度的卡方分布
其他版本
【概率论与数理统计】附录5:卡方分布表
【高中数学】独立检验
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
次序统计量
下一篇:
t分布
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。