科数网
首页
题库
试卷
学习
VIP
你好
游客,
登录
注册
在线学习
高中数学
第十二章:概率与统计
独立检验
最后
更新:
2025-06-09 05:56
查看:
134
次
反馈
同步训练
独立检验
独立检验
## 独立检验概述 在实际问题中经常遇到要证实两类变量是相关的,或者反过来,证实它们是相互独立的.如何利用取自这两类变量的样本来判断它们是否相互独立呢? 下面通过案例来加以说明。 某疾病预防中心随机调查了 339 名 50 岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如表 8-7 所示。问:患慢性气管炎与吸烟是否相互独立?  表格,称为 2 行 $\times 2$ 列列联表,简称 $2 \times 2$ 列联表,也称为四格表。 由表 8-7 中的数据可以计算其中一个分类变量的不同类别在另一个分类变量中的百分比.例如,在不吸烟者中,约有 $9.70 \%$ 患慢性气管炎,而在吸烟者中,约有 $20.98 \%$ 患慢性气管炎,两者相差较大.因此,我们可以初步推断:患慢性气管炎可能与吸烟有关,吸烟者患慢性气管炎的可能性更大.但这种推断是否具有统计意义呢?我们有多大把握认为患慢性气管炎与吸烟有关呢?这就需要用到 $2 \times 2$ 列联表独立性检验方法。 要检验两个随机变量是否有关,统计上一般先假设它们没有关系,即相互独立,再进行统计检验。这种假设称为**原假设**(null hypothesis),也称为**零假设**,习惯上用 $H_0$ 表示.以上述问题为例,我们提出的原假设是: $H_0$ :患慢性气管炎与吸烟没有关系,即它们相互独立. 要检验上述假设,我们需要对 $2 \times 2$ 列联表(表 8-7)中的观察值与预期值进行比较。预期值是当原假设 $H_0$ 成立时的预期结果.例如,由表 8-7 可知,总计 339 位样本公民中有 56 位患有慢性气管炎,其百分比为 $\frac{56}{339} \times 100 \% \approx 16.52 \%$ 。假设患慢性气管炎与吸烟没有关系,那么 205 位吸烟者中应该有 $205 \times 16.52 \% \approx$ 33.87 位患有慢性气管炎,这里的 33.87 就是原假设 $H_0$ 成立时计算得到的预期值.我们把这样计算得到的所有预期值与观察值建立表格,就得到表 8-8.  ## 卡方统计量 $\chi^2$ 为了描述观察值与预期值之间的总体偏差,我们引人统计量 $\chi^2$ : $$ \chi^2=\sum \frac{(\text { 观察值一预期值 })^2}{\text { 预期值 }} $$ $$ \begin{aligned} = & \frac{(121-111.86)^2}{111.86}+\frac{(162-171.13)^2}{171.13}+\frac{(13-22.14)^2}{22.14} \\ & +\frac{(43-33.87)^2}{33.87} \\ \approx & 7.468 \end{aligned} $$ $\chi^2$ 的值越大,说明表 8-8 中观察值与预期值的总体偏差越大,原假设成立的可能性就越小。那么究竟 $\chi^2$ 多大时,我们才可以拒绝原假设呢?这涉及 $\chi^2$ 分布。通过查阅 $\chi^2$ 分布概率表,可以得到 $\chi^2$ 值超过某些界限的概率。例如, $$ \begin{aligned} & P\left(\chi^2 \geqslant 6.635\right) \approx 0.01, \\ & P\left(\chi^2 \geqslant 5.024\right) \approx 0.025, \\ & P\left(\chi^2 \geqslant 3.841\right) \approx 0.05 \\ & P\left(\chi^2 \geqslant 2.706\right) \approx 0.1 \end{aligned} $$ 以 $P\left(\chi^2 \geqslant 3.841\right) \approx 0.05$ 为例,其含义是:如果原假设成立,那么 $\chi^2 \geqslant 3.841$ 成立的概率约为 0.05 .这是一个小概率事件,不太可能发生.由于在本例中,$\chi^2 \approx 7.468>3.841$ ,因此我们可以推断原假设"患慢性气管炎与吸烟没有关系"成立的可能性小于 $5 \%$ 。或者说,我们有 $95 \%$ 的把握认为患慢性气管炎与吸烟有关. 为了计算方便,我们给出 $2 \times 2$ 列联表 $\chi^2$ 检验的计算公式: 设有两组分类数据 $A , ~ B$ ,每组数据的两种状态分别用 0 和 1 表示(如 A 组是"不吸烟者",B组是"吸烟者";用"0"表示"不患慢性气管炎者",用" 1 "表示"患慢性气管炎者"),则可得到下面的 $2 \times 2$ 列联表(表 8-9):  其中,$a, ~ b, ~ c, ~ d$ 为实际观察值. 由 $\chi^2=\sum \frac{(\text { 观察值一预期值 })^2}{\text { 预期值 }}$ ,经过变形可得 $\chi^2$ 的一般计算公式 $$ \chi^2=\frac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)} $$ 其中,$n=a+b+c+d$ . 该公式的证明留作习题。 本例所用的 $\chi^2$ 检验方法在统计学中称为 $2 \times 2$ 列联表独立性检验(independence test in contingency table)。 从上面的例子可以看出, $2 \times 2$ 列联表独立性检验通常有如下步骤: (1)提出两个随机变量没有关系的原假设 $H_0$ . (2)确定显著性水平 $\alpha$ ,本书中规定 $\alpha=0.05$ ,也即 $P\left(\chi^2 \geqslant\right.$ $3.841) \approx 0.05$ . (3)计算统计量 $\chi^2$ 的值. (4)统计决断:比较上述 $\chi^2$ 值与 3.841 的大小,若 $\chi^2$ 值 $\geqslant$ 3.841 ,则拒绝(或否定)$H_0$ ;若 $\chi^2$ 值 $<3.841$ ,则不能拒绝(或否定)$H_0$ ,即接受 $H_0$ .根据上述推断作出结论. ## 独立检验 我们通过一个简单例子来理解独立检验的实际意义。在许多实际问题中,我们需要考察两个分类变量之间是否有关系。例如,考察患肺癌与吸烟之间是否有关系。 为了了解患肺癌与吸烟之间的关系,某医疗机构调查了其他条件都基本相同的 100 个人,调查结果如下表(表中 $X$ 表示"是否吸烟",$Y$ 表示"是否患肺癌")。 {width=600px} 像上表这样,将两个分类变量进行交叉分类得到的频数分布表称为列联表;称 $X, Y$ 为分类变量,其中变量 $X$ 有两个变量值——"吸烟"和"不吸烟",变量 $Y$ 有两个变量值——"患肺癌"和"未患肺癌"。 由于所涉及的两个分类变量 $X, Y$ 均有两个变量值,所以称上表为 **$2 \times 2$ 列联表**. 从表 4-3 可以得出,在 54 个吸烟的人中有 39 人患肺癌,患者占 $39 / 54 \approx$ $72.22 \%$ ;在不吸烟的 46 人中,有 21 人患肺癌,患者占 $21 / 46 \approx 45.65 \%$ 。吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高出约 $$ 72.22-45.65=26.57 \text { (个百分点). } $$ 这种差异似乎已经说明吸烟与患肺癌有很大关系。但仔细想想,由于这 100 人是随机选取的,会不会是由于随机抽样的误差,使得所抽取的 60 名肺癌患者中碰到了较多的吸烟者,而在 40 名未患肺癌者中碰到了较多的不吸烟者?这样也可能导致吸烟者中肺癌患者的比例比不吸烟者中肺癌患者的比例高。 于是,我们还需进一步用统计方法来检验,因为单凭随机抽样的误差可能还不 足以造成如此大的差异。 为了讨论的方便我们引人以下记号: 变量 $X: A=$ 吸烟, $\bar{A}=$ 不吸烟; 变量 $Y: B=$ 患肺癌, $\bar{B}=$ 未患肺癌. 我们将表 4-3 中的数字用字母代替得到如下列联表: {width=600px} 在本案例中, $$ \begin{aligned} & a=39, b=15, c=21, d=25 \\ & n=a+b+c+d=100 \\ & a+b=54 \\ & c+d=46 \\ & a+c=60 \\ & b+d=40 \\ \end{aligned} $$ 为分析 $X, Y$ 是否有关系,我们先提出假设 > **$H_0: X, Y$ 之间没有关系(独立)** , ,也就是假设"吸烟 $(A)$"与"患肺癌 $(B)$"独立.这时 $A$ 与 $B$ 独立, $\bar{A}$ 与 $B$ 独立,$A$与 $\bar{B}$ 独立, $\bar{A}$ 与 $\bar{B}$ 独立. 于是 $P(A \cap B)=P(A) P(B)$ 吸烟和患肺癌, $P(\bar{A} \cap B)=P(\bar{A}) P(B)$ 不吸烟和患肺癌, $P(A \cap \bar{B})=P(A) P(\bar{B})$ 吸烟和不患肺癌, $P(\bar{A} \cap \bar{B})=P(\bar{A}) P(\bar{B})$ 不吸烟和不患肺癌 根据概率与频率的关系,知道 $P(A \cap B)$ 的估计值为 $p_{A B}=\frac{a}{n}=0.39$, $P(\bar{A} \cap B)$的估计值为 $p_{\bar{A} B}=\frac{c}{n}=0.21$, $P(A \cap \bar{ B })$ 的估计值为 $p_{A \bar{B}}=\frac{b}{n}=0.15$, $P(\bar{A} \cap \bar{B})$ 的估计值为 $p_{\bar{A} \bar{B}}=\frac{d}{n}=0.25$ . 又 $P(A)$ 的估计值为 $p_A=\frac{a+b}{n}=0.54$, $P(\bar{A})$的估计值为 $p_\bar{A}=\frac{c+d}{n}=0.46$ , $P(B)$ 的估计值为 $p_B=\frac{a+c}{n}=0.6$, $P(\bar{B})$ 的估计值为 $p_\bar{B}=\frac{b+d}{n}=0.4$ . 因为假设 $X, Y$ 独立,所以 $\mu_{A B}=\left|p_{A B}-p_A p_B\right|$ $\mu_{\bar{A} B}=\left|p_{\bar{A} B}-p_\bar{A} p_B\right|$ $\mu_{A \bar{B}}=$ $\left|p_{A \bar{B}}-p_A p_\bar{B}\right|$ $\mu_{\bar{A} \bar{B}}=\left|p_{\bar{A} \bar{B}}-p_\bar{A} p_\bar{B}\right|$ 都相应比较小. 我们用 $\chi^2$(读作"卡方")表示 $\mu_{A B}, \mu_{\bar{A} B}, \mu_{A \bar{B}}, \mu_{\bar{A} \bar{B}}$ 的总体大小,记 $$ \begin{aligned} \chi^2 & =\dfrac{n \mu_{A B}^2}{p_A p_B}+\dfrac{n \mu_{\bar{A} B}^2}{p_\bar{A} p_B}+\dfrac{n \mu_{A \bar{B}}^2}{p_A p_\bar{B}}+\dfrac{n \mu_{\bar{A} \bar{B}}^2}{p_\bar{A} p_\bar{B}} \\ & =\frac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)} . \end{aligned} $$ 当 $\chi^2$ 的取值较小时,表示假设 $H_0$ 成立,当 $\chi^2$ 的取值较大时,表示假设 $H_0$ 不成立。 在本案例中,经过计算得到 $\chi^2$ 的观测值为 $$ \chi^2=\frac{100(39 \times 25-15 \times 21)^2}{54 \times 46 \times 60 \times 40} \approx 7.307 $$ 那么,$\chi^2=7.307$ 这个取值是较大还是较小呢? > 统计学家已经有明确的结论:如果 $2 \times 2$ 列联表中的两个分类变量 $X, Y$ 是独立的,即在 $H_0$ 成立的情况下,且当随机调查的数据 $a, b, c, d$ 都不小于 5 时,随机事件"$\chi^2 \geqslant 6.635$"发生的概率约为 0.01 , 即 $$ P\left(\chi^2 \geqslant 6.635\right) \approx 0.01 $$ 也就是说,在 $H_0$ 成立的情况下,$\chi^2$ 的观测值大于或等于 6.635 的概率非常小,近似于 0.01 。即在 $H_0$ 成立的情况下,观测值超过 6.635 的概率不大于 0.01 . 在本案例中,由抽样数据所得到的 $\chi^2 \approx 7.307>6.635$ ,这表明这一事件发生的概率不大于 0.01 ,这是一个小概率事件。因此,我们有 $\left[1-P\left(\chi^2 \geqslant 6.635\right)\right] \times$ $100 \%=99 \%$ 的把握认为 $H_0$ 不成立,于是否定假设 $H_0$ ,从而认为吸烟与患肺癌之间有关系。 值得指出的是,我们在作出上述判断时也有可能犯错误,因为吸烟与患肺癌没有关系时,$\chi^2$ 的观测值仍有可能超过 6.635 .但是这一事件发生的概率不超过 0.01 ,也就是说,我们犯错误的概率不会超过
其他版本
【概率论与数理统计】附录5:卡方分布表
【概率论与数理统计】卡方分布
【概率论与数理统计】检验的基本原理
免费注册看余下 50%
非VIP会员每天15篇文章,开通VIP 无限制查看
上一篇:
一元线性回归模型的应用
下一篇:
阅读:蒙特卡洛算法
本文对您是否有用?
有用
(
0
)
无用
(
0
)
更多
学习首页
数学试卷
同步训练
投稿
题库下载
会议预约系统
数学公式
关于
科数网是专业专业的数学网站 版权所有 本站部分教程采用AI辅助生成,请学习时自行鉴别
如果页面无法显示请联系 18155261033 或 983506039@qq.com