在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
实变函数
数论
群论
你好
游客,
登录
注册
在线学习
概率论与数理统计
第九篇 假设检验
Z检验(正态检验)
最后
更新:
2025-02-21 08:14
查看:
26
次
反馈
刷题
Z检验(正态检验)
正态检验
## Z检验(正态检验) Z检验(Z Test)又叫U检验。由于实际问题中大多数随机变量服从或近似服从正态分布,U作为检验统计量与X的均值是等价的,且计算U的分位数或查相应的分布表比较方便。通过比较由样本观测值得到的U的观测值,可以判断数学期望的显著性,我们把这种利用服从标准正态分布统计量的检验方法称为U检验(U-test) ## 原假设与备择假设 假设麦当劳推出了一项新的广告宣传活动,声称它们处理每一个订单所花费的平均时间是 45 秒.显然每个订单都是不同的,所以实际情况会围绕均值产生一些变化.作为一个怀疑论者,当下次去麦当劳时,你会做一些调查:在 20 个订单样本中,你发现平均服务时间是 48 秒,标准差是 8 秒。鉴于这些数据,你相信麦当劳的说法吗? 回答这个问题有一个主要的障碍:你选取的样本具有随机性.你的样本均值意味着麦当劳的速度比他们声称的慢,但也可能是你选取的样本速度恰好很慢在你观察的过程中。我们需要一个正式的过程来确定麦当劳是否在说实话,这个过程称为假设检验。 在很多情况下,我们都需要评估一项声明是否有效,比如考察麦当劳处理订单的速度,以及确定一种新药是否比现有的药更好。假设检验的第一步是建立一个**原假设**.原假设通常与实验员或研究者试图证明的结论相反,我们假定原假设是正确的,并试着利用数据来推翻它. 以麦当劳为例,由于我们认为麦当劳平均服务时间 $\mu$ 比 45秒慢,原假设(记作为 $H_0$ )可能如下所示: (i)原假设: $H_0: \mu \leqslant 45 $ 也就是说,我们假设平均服务时间最多为 45 秒.在建立了原假设之后,还必须提出备择假设,这通常是我们想要证明的事实.在麦当劳的例子中,备择假设(记作 $H_1$ )就是 (ii)备择假设:$H_a: \mu>45$ 这就是我们想要的结果. > 假设检验最重要的一个方面就是我们的论述方式.如果想证明一种药物是有效的,我们会认为原假设是"药物是无效的".在假设药物无效的前提下,如果药物的性能难以判断,就拒绝原假设并给出药物有效的结论。 ## 显著性水平 一旦确定了原假设与备择假设,该如何检验它们呢?我们假定原假设成立,然后考察我们的数据。在原假设 $H_0$ 下,如果收集这些数据的概率足够小,那么就拒绝 $H_0$ ,转而支持备择假设 $H_a$ . 这种论证方式对你来说可能比较陌生,所以下面给出一个例子. 你的面前有一箱小球,已知小球只有2个可能性: ①1只红球和99只黑球。 ②99只红球和1只黑球。 现在你随机从箱里摸一下,看了一下是红球,问这箱小球是①的可能性大还是②的可能性大? 我们假设是①的可能性,同时备择假设就是②, 然后根据概率论容易知道,在①的情况下,摸中红球的概率为0.01, 我们通常认为概率小于0.05的都是小概率(称作**显著性水平,也称作$\alpha$水平**),所以,在小概率下发生了①,[大数定律](https://kb.kmath.cn/kbase/detail.aspx?id=560)知识告诉我们“小概率数据是不可能发生的”,因此这里偏偏就发生了小概率事件,因此,我们否定原假设,而接受备择假设,就是这个箱子里有99只红球和1只黑球。 ### 显著性水平 设置一个 $\alpha$ 水平的优点是,对于我们可以接受的事件范围,它给出了一个硬性限制,这是他的好处,但是也让我们失去了灵活性。 有一个简单的方法可以可视化 $\alpha$ 水平.不妨设我们已经给出了下列假设:我们要考察总体的某个参数,它服从 $N\left(\mu, \sigma^2\right)$ .我们想在 0.05 的 $\alpha$ 水平下对这个假设进行检验。利用正态表格可知,如果原假设成立,那么该参数介于 $\mu-1.96 \sigma$ 和 $\mu+1.96 \sigma$之间的概率是 0.95 .换句话说,如果原假设为真,那么在该范围内产生一个值的概率是 $95 \%$ .因此,在原假设下,如果某测量值与均值之间的距离超过了 1.96 个标准差,那么就认为该测量值出现的概率小于 $5 \%$ 。此时,我们会拒绝原假设.可以把原假设看作用来建立一个临界区域,如果测量值出现在临界区域内,那么我们就拒绝原假设。在 0.05 的 $\alpha$ 水平下,如果被检验的参数服从正态分布,那么临界区域就是与均值的距离超过 1.96 个标准差的所有范围,参见图 22-1.  详细请参考[置信区间与上$\alpha$分位数](https://kb.kmath.cn/kbase/detail.aspx?id=1641) 在接着往下说之前,还有一个术语不得不提.对于 0.05 的 $\alpha$ 水平,我们经常提到的 1.96 被称为临界值.不难想到,每一个 $\alpha$ 值都对应着一个不同的临界值。  ## 检验统计量 在确定了显著性水平之后,就可以对假设进行检验了.接下来要做的就是构造一个检验统计量.检验统计量是从数据中得到的测量结果,而且它的分布被假定为已知的(记住,我们从假定原假设成立开始)。既然知道了检验统计量的分布,就可以得到检验统计量取一个大值或较大值的概率;这就是我们用来判断是否拒绝原假设的概率.一个常见的检验统计量是样本均值.在确定了检验统计量之后,我们要算出它服从的分布。这是假设检验中最重要的问题,如果不知道检验统计量的分布,就无法评估得到的结果是否异常。 举一个例子,样本均值应该服从什么分布?为此,我们回忆一下中心极限定理:对于 $n$ 个独立同分布的随机变量 $X_i$ ,设它们的均值为 $\mu$ 且方差为 $\sigma^2$ ,那么当 $n \rightarrow \infty$ 时,随机变量 $$ Y_n=\frac{1}{n}\left(\sum_{i=1}^n X_i\right) $$ 会趋向于服从正态分布。如果每一个 $X_i$ 都代表总体中一个成员的度量,那么 $Y_n$ 就是样本均值,并且 $X_i$ 满足上述条件.$Y_n$ 的均值和方差是多少?由期望的线性性质可得 $$ E \left[Y_n\right]= E \left[\frac{1}{n}\left(\sum_{i=1}^n X_i\right)\right]=\frac{1}{n}\left(\sum_{i=1}^n E \left[X_i\right]\right)=\frac{1}{n} \cdot n E [X]=\mu $$ $Y_n$ 的期望值就是 $X$ 的期望值.另外,$Y_n$ 的方差由下式给出 $$ \operatorname{Var}\left(Y_n\right)=\operatorname{Var}\left(\frac{1}{n}\left(\sum_{i=1}^n X_i\right)\right)=\frac{1}{n^2} \operatorname{Var}\left(\sum_{i=1}^n X_i\right) . $$ 因为 $X_i$ 是相互独立的,所以 $$ D\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n D\left(X_i\right)=n D\left(X_i\right), $$ 于是,$Y_n$ 的方差可以简化成 $$ D\left(Y_n\right)=\frac{1}{n^2} \cdot nD\left(X_i\right)=\frac{\sigma^2}{n} $$ 样本均值的方差有一个奇妙的特性:**随着样本容量的增加,方差会不断减小**. 要想知道为什么会这样,可以想象反复抛郑一枚均匀硬币的场景.容易知道正面朝上的概率为 50%, 如果我们允许误差在$\pm 5 \%$ 上下浮动,我们会认为正面朝上的概率在 $45 \%$ 到 $55 \%$ 之间,这是正常的,反之,如果概率低于 $45 \%$ 或者大于 $55 \%$ 则是不正常的。 一枚硬币抛掷两次, 我们得到一个不正常结果的概率是 $50 \%$ ,这是因为我们只可能郑出两个正面(不正常),两个反面(不正常),正反面一个 (正常)或者反正面一个 (正常). 如果抛掷100次 呢?此时,如果掷出的正面少于 45 个或者超过 55 个,那么我们就得到了一个不正的结果. 可以看到,随着抛掷的次数越多,数据越来越接近期望值(即方差越来越小)。 一旦得到了检验统计量的分布,就可以马上做假设检验.不妨设原假设是"随机变量 $X$ 的均值等于 $\mu "$ 。如果原假设成立,那么对于较大的 $n$ ,样本均值 $\bar{x}$ 应该服从均值为 $\mu$ 且方差为 $\sigma^2 / n$ 的正态分布.换言之, $\bar{X} \sim N\left(\mu, \sigma^2 / n\right)$ .于是,检验统计量定义如下. ### Z统计量 **Z统计量**:设 $X$ 是一个服从正态分布的随机变量,其方差是已知的 $\sigma^2$ ,并假设其均值为 $\mu$ .设 $x_1, x_2, \cdots, x_n$ 是从该分布中取出的 $n$ 个相互独立的观测值.设 $\bar{x}=\left(x_1+\cdots+x_n\right) / n$ 是样本均值.那么,观测到的 $z$检验统计量的值 $$ \boxed{ z=\dfrac{\bar{x}-\mu}{\sqrt{\sigma^2 / n}} } $$ 服从均值为 0 且方差为 1 的正态分布(所以 $Z \sim N(0,1)$ ).如果 $X$ 不服从正态分布,而是服从某个具有良好性质的分布,那么我们会得到一个不错的结果:当 $n \geqslant 30$ 时, $\bar{X}=\left(X_1+\cdots+X_n\right) / n$ 会近似于服从正态分布.方差是已知的这一点非常重要,否则我们就要做更多检验。 这个检验之所以称为 $z$ 检验是因为检验统计量服从正态分布,而这又是因为服从正态分布的随机变量之和仍然服从正态分布.这意味着正态分布是稳定的. 对于任何要测量的 $z$ 值,我们都可以利用标准正态分布表来找到检验统计量远离 0 的概率.这个概率称为 $p$ 值(即概率值).如果 $p$ 值小于 $\alpha$ 水平,那么拒绝原假设并支持备择假设.这也让我们对临界值有了更清楚的了解。对于给定的假设检验,临界值满足下列说法:如果检验统计量大于临界值(在绝对值意义上),那么就拒绝原假设. 现在终于可以结束麦当劳的例子了.根据前面的讨论,如果我们接受原假设,并令 $\mu=45$ 且假设 $\sigma=8$,那么在容量为 20 的样本中,应该有 $$ \bar{X} \sim N\left(45,8^2 / 20\right) $$ 这意味着对于容量为 20 的样本,平均等待时间应该是 45 秒,而标准差则是 1.79秒。因为我们的观测结果是 $\bar{x}=48$ ,所以 $z$ 值就是 $(48-45) / 1.79=1.68$ .通过 $z$表格可以看到检验统计量恰好大于 1.68 的概率是 0.046 ,略高于 $4 \%$ 。由于这个 $p$值小于 0.05 的显著性水平,所以我们拒绝原假设,并认为麦当劳确实比他们宣称的速度要慢.但是,如果选择 0.01 的 $\alpha$ 水平,那么我们会得到一个完全不同的答案.这个问题说明了不同的临界值是如何影响我们的判断的.有些人认为,研究人员的工作不是给出结论,而是报告 $p$ 值. ## 单侧检验与双侧检验 在上一个例子中,你可能会想:"为什么只考察 $z$ 值大于 1.68 的概率?难道我们不需要担心检验统计量小于假设均值的概率吗?"这是迄今为止我们有点疏忽的一个重要问题,它阐明了单侧假设检验与双侧假设检验之间的关键区别.麦当劳的例子阐述了单侧检验的情形,其中我们感兴趣的是被测量的参数是否大于(或小于)某个特定的值.为了看清这一点,我们计算了检验统计量大于或等于已有值的概率.通过双侧检验,我们想看看这个参数是否与某个给定值有很大的不同,所以要计算检验统计量远离假设均值或者远远高于我们已有值的概率.显然,所测量的 $p$ 值取决于你正在做的测试类型.单侧检验与双侧检验的区别如图 22-3 所示.  你会注意到,单侧检验的临界值要比双侧检验的临界值更小(检验统计量与均值之间的距离只需要 1.64 个标准差,而不是 1.96 个标准差).这是单侧检验与双侧检验的一般性质:与单侧检验相比,双侧检验需要更多的证据. 为什么双侧检验需要更多的证据?如果是这样的话,为什么不能只用单侧检验呢?问题在于,我们需要证明进行单侧检验是合理的。在麦当劳的例子中,我们可以放心地假设他们不会比宣传的速度更快,因为如果真的更快,他们早就那样宣传了!但是,如果不能排除这种可能性,那么就需要使用双侧检验。 最后就单侧检验做一点说明.在麦当劳的例子中,原假设是 $\mu \leqslant 45$ ;但在做检验时,我们只令 $\mu=45$ .为什么不需要担心均值为 43 的可能性呢?好吧,假设令 $\mu=43$, 那么检验统计量就变成了 $(48-43) / 1.79 \approx 2.79$ —比以前更大了!对于任意一个小于 45 的均值,我们会有更高的 $z$ 测量值.因此,$\mu=45$ 是最困难的情况.如果当 $\mu=45$ 时,我们可以拒绝原假设,那么对于任何小于 45 的假设均值,就都可以拒绝原假设.这是单侧检验的一个便利属性:你只需要考察最极端情况. `例` 假设你正在测量灯泡的使用寿命,并且已知标准差为 $\sigma=100$ 小时.你想检验它们的寿命是否与 2000 小时有很大差别。在包含 20 个灯泡的随机样本中,你发现它们的平均使用寿命是 2050 小时.在 0.05 的 $\alpha$ 水平下,你会拒绝"灯泡的平均使用寿命是 2000 小时"这一假设吗? 解答:我们已经有了原假设,即 $\mu=2000$ .因此,备择假设就是 $$ H_a: \quad \mu \neq 2000 $$ 注意,这是一个双侧检验,因为没有理由不考虑灯泡使用时间少于 2000 小时的可能性.现在我们来计算检验统计量,也就是 $$ z=\frac{\text { 观测均值 }- \text { 假设均值 }}{\text { 标准差 }} \text {. } $$ 要小心!人们经常错误地说:"观测均值是 2050 ,假设均值是 2000 ,又因为标准差是 100 ,所以 $z$ 值是 $1 / 2$ .这个值太小了,所以不能断定均值有差别."然而,他们使用了错误的标准差! 100 小时是只包含一个灯泡的样本的标准差.对于包含 20 个灯泡的样本,你应该会得到更可靠的均值,而正确的标准差是 $\sigma / \sqrt{n}=100 / \sqrt{20} \approx$ 22.36 小时.因此,$z$ 值是 $(2050-2000) / 22.36 \approx 2.24$ .由于我们使用的是双侧检验,所以 $p$ 值就等于检验统计量大于 2.24 或小于 -2.24 的概率,即 0.025 .这是非常有说服力的证据,表明了真正的均值不是 2000 小时. `例`某切割机正常工作时,切割每段金属棒的平均长度为 10.5 cm ,标准差为 0.15 cm .今从一批产品中随机抽取 15 段进行测量,其结果如下(单位:cm): $$ \begin{aligned} & 10.4,10.6,10.1,10.4,10.5,10.3,10.3,10.2,10.9,10.6,10.8 \text {, } \\ & 10.5,10.7,10.2,10.7 \end{aligned} $$ 由以往的经验知道,金属棒长度服从正态分布,在显著性水平 $\alpha=0.05$下,检验该切割机的工作是否正常? 解 记 $X$ 为金属棒的长度,则 $X \sim N\left(\mu, 0.15^2\right)$ .由题意,要检验的假设为: $$ H_0: \mu=10.5 \leftrightarrow H_1: \mu \neq 10.5 $$ 因为总体方差已知,故选择统计量 $$ U=\frac{\sqrt{n}\left(\bar{X}-\mu_0\right)}{\sigma_0} $$ 当 $H_0$ 为真时,$U \sim N(0,1)$ .对 $\alpha=0.05$ ,查标准正态分布表,可得 $u_{1-\frac{\alpha}{2}}$ $=u_{0.975}=1.96$ ,由所给数据直接计算得 $\bar{x}=10.48$ ,于是 $$ u=\frac{\sqrt{n}\left(\bar{x}-\mu_0\right)}{\sigma_0}=\frac{\sqrt{15}(10.48-10.5)}{0.15}=-0.516 $$ 由 $|u|=|-0.516|<1.96$ ,故接受 $H_0$ ,即认为该切割机的工作是正常的. `例`自动生产线生产某种食品罐头,在正常生产情况下,每听罐头的标准重量为 500 克,标准差不得超过 10 克。由经验知道,该种罐头的重量服从正态分布,某天开工后,为了检査生产线的工作是否正常,随机抽取了 9 听罐头测量其重量,其结果为(单位:克): $$ 497,507,510,475,484,488,524,491,515 $$ 问:这天的自动生产线工作是否正常 $(\alpha=0.05)$ ? 解 记 $X$ 为罐头重量,则 $X \sim N\left(\mu, \sigma^2\right)$ .为了检验生产线的工作是否正常,需要检验以下两组假设: $$ \begin{gathered} H_0: \mu=500 \leftrightarrow H_1: \mu \neq 500 \\ H_0^{\prime}: \sigma^2 \leqslant 100 \leftrightarrow H_1^{\prime}: \sigma^2>100 \end{gathered} $$ 为了检验假设 $H_0: \mu=500 \leftrightarrow H_1: \mu \neq 500$ ,由于总体方差未知,因此采用 $t$ 一检验法,选用统计量 $$ T=\frac{\sqrt{n-1}\left(\bar{X}-\mu_0\right)}{S_n} $$ 当 $H_0$ 为真时,$T \sim t(n-1)$ .对于给定的显著性水平 $\alpha=0.05$ ,査自由度为 $n-1=8$ 的 $t$-分布表,可得 $t_{1-\frac{a}{2}}(n-1)=t_{0.975}(8)=2.306$ ,又由所给数据,直接计算可得 $\bar{x}=499, S_n=15.113$ ,将它们代人统计量 $T$ ,不难得到 $T$ 的观察值为 $$ t=\frac{\sqrt{8}(499-500)}{15.113}=0.187 $$ 由于 $|t|=0.187<t_{0.975}(8)=2.306$ ,因此接受 $H_0$ 。 下面再检验 $H_0^{\prime}: \sigma^2 \leqslant 100 \leftrightarrow H_1^{\prime}: \sigma^2>100$ ,选用统计量 $$ \chi^2=\frac{n S_n^2}{\sigma_0^2} \sim \chi^2(n-1) $$ 对于给定的 $\alpha=0.05$ ,查自由度为 $n-1=8$ 的 $\chi^2$ 分布表,可得临界值 $C_{1-\alpha}(n-1)=C_{0.95}(8)=15.5$ ,而 $\chi^2$ 统计量的观察值 $$ c=\frac{9 \times 15.113^2}{100}=20.56 $$ 由于 $c=20.56>C_{1-\alpha}(n-1)=15.5$ ,故拒绝 $H_0^{\prime}$ 。 由以上结果可见,这天的自动生产线由于产品重量的方差偏大,即生产不够稳定,从而认为生产线的工作是不正常的.
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
没有了
下一篇:
假设检验的基本基本原理与例题
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。