科数网
数学题库
数学试卷
数学组卷
在线学习
电子教材
科数
试题
试卷
学习
教材
VIP
你好
游客,
登录
注册
在线学习
概率论与数理统计
附录1:置信区间与上a分位数
最后
更新:
2024-12-19 06:30
●
参与者
查看:
308
次
纠错
分享
参与项目
词条搜索
附录1:置信区间与上a分位数
## 正态分布表的使用 在介绍标准正态分布 $x \sim N(0,1)$时提到, 标准正态分布**密度函数图像** ![图片](/uploads/2024-11/ed5d5a.jpg){width=550px} 标准正态分布的**密度函数图像**的意义 ![图片](/uploads/2024-11/3d5c4f.jpg){width=550px} 从上面两个图里可以知道正态分布有如下性质: **性质1**. 概率密度函数图像是关于 $x=0$ 对称的,根据函数的奇偶性,所以 $\varphi_0(-x)=\varphi_0(x)$; **性质2** 概率密度函数图像在 $x=0$ 处达到极大(参考密度函数图像,很容易理解); **性质3** 分布函数有性质 $\Phi_0(-x)=1-\Phi_0(x)$. > 请务必牢记分布函数的定义,分布函数$F(X)=P(X \leqslant x)$他是一个累加值。比如考试分$F(90)=P(X<90)=80$ 表示分数小于90分的人数为80人,$F(60)=P(X<60)=20$ 表示分数小于60分的人数为20人, 现在要求分数在$60-90$之间的人数,显然就是$F(90)-F(60)=80-20=60$人,分布函数求导就是密度函数,密度函数积分就是分布函数。而积分的本质就是求面积,所以密度函数曲线围成的整个面积就是所有的概率为1.通常认为分布函数的作用用来计算密度函数,单纯看分布函数图像其实看不出多少有价值的东西。数学上的表达就是密度函数在区间$(a, b)$上的积分。所以,概率的大小就是“概率密度函数曲线下的面积”的大小,这个不太起眼的概念实际上就决定了你日后是否能理解假设检验中所谓的“拒绝域”。 性质3可以通过正态密度函数的积分进行计算,但是我们准备从密度函数的图像上来解释一下$\Phi_0(-x)=1-\Phi_0(x)$的意义。 根据分布函数的定义,他表示的是概率的累加值,而所有概率的可能性为100%,所以分布函数的整体值就是1。也就是说,密度函数曲线下所围成的总面积为1. `例`求$\Phi_0(-2)$ 解: **STEP1** 要求$\Phi_0(-2)$,根据分布函数的定义即是求$\Phi_0(-2)=P(X \le -2)$ ,也就是求红色区域的面积。 ![图片](/uploads/2024-11/5ae1e8.jpg){width=400px} **STEP2** 很遗憾,从正态表里,查不到$\Phi_0(-2)$,但是根据对称性可以查到 $\Phi_0(2)$ ,而$\Phi_0(2)=P(X \le 2)$ 表示的下图绿色图形的面积。 ![图片](/uploads/2024-11/b71212.jpg){width=400px} **STEP3** 我们用总面积减去上面大的绿色曲面面积,就可以得到下图小的绿色曲面面积。 ![图片](/uploads/2024-11/1156db.jpg){width=400px} **STEP4** 根据对称性,上图红色曲面面积就等于小的绿色曲面面积。 **STEP5** 因此,查表知 $\Phi_0(2)=0.9772$,所以 $\Phi_0(-2)=1-0.9772=0.0228$ `例`求$\Phi_0(1.65)$ 解:题目已经是标准正态分布,直接查表 $\Phi_0(1.65)=0.9505$ `例` 求标准正态分布,$P\{|X| \le 2\}$ 的值。 解:$P\{|X| \le 2\}= P \{-2 \le X \le 2 \}$ 在例1里,已经算出其值,所以 $=\Phi_0(2)-\Phi_0(-2)=0.972-0.0228=0.9492$ 下面我们再来分析一下例3的题目: $P\{|X| \le 2\}=\Phi_0(2)-\Phi_0(-2)$ 在例1里,已经知道$\Phi_0(2)$ 表示的是大的绿色曲面面积 $\Phi_0(-2)$ 表示的是左下角小的红色的曲面面积,因此这个结果是如下曲面面积 ![图片](/uploads/2024-11/9419ad.jpg){width=400px} `例` 有一批袋装大米,质量误差服从$X \sim N(50,1)$的正态分布,求质量范围在$49~51$之间的概率。 解:这是一个一般正态分布,因$X \sim N(50,1)$,所以$\mu=50,\sigma=1$ 要求质量在$49-51$之间,就是求 $P\{ 49 \le X \le 51\}=\Phi(51)-\Phi_0(49)$ 利用上节介绍的一般正态分布化为标准正态分布公式: $$ \Phi(x)= \Phi_0(x) \left(\frac{x-\mu}{\sigma} \right) $$ ,做一个线性变换的 $\Phi(51)-\Phi(49)$=$\Phi_0(1)-\Phi_0(-1)= 2 \Phi_0(1)-1$ ## 标准正态分布的分位数概念 设 $X \sim N(0,1)$, 对给定的 $\alpha$, 若 数 $u_\alpha$ 满足 $$ \Phi\left(u_\alpha\right)=\int_{-\infty}^{u_\alpha} \varphi(x) \mathrm{d} x=P\left(X \leq u_\alpha\right)=\alpha $$ 称 $u_\alpha$ 为随机变量$X$的 $\alpha-$ 分位数 分位数的几何意义 ![图片](/uploads/2023-01/image_202301033fc0995.png){width=500px} ### 上 $\alpha$ 分位数 与下 $\alpha$ 分位数 上 $\alpha$ 分位数 表明 $P=\left(X \geqslant Z_{-} a\right)=a$, 在标准正态分布的概率分布图中, 临界值右侧曲线下的面积大小为 $a$ (下图左图)。 下$a$ 分位数, 则是 $P=\left(X \leqslant Z_{-} a\right)=a$, 临界值左侧曲线下的面积大小为 $a$ 。(下图右图)。 ![图片](/uploads/2024-11/37238e.jpg) ## 如何查$\alpha$ 分位表数-了解概率统计背景 要理解上 $\alpha$ 分位数 与下 $\alpha$ 分位数 这其中的区别还是需要一点小常识。 总体来说,全国各大高校统计真题分为五大门派:纯贾、贾茆、纯茆、贾Pro、茆Pro。 这里的贾不仅仅指贾俊平的《统计学》,而是以贾俊平《统计学》为代表的偏文、偏经济的一类教材,比如袁卫的《统计学》等。 同样,这里的茆不仅仅只是茆诗松的《概率论与数理统计》,而是以茆诗松《概率论与数理统计》为代表的偏数理的一类教材,比如盛骤的《概率论与数理统计》等。 ![图片](/uploads/2024-11/127ef6.jpg){width=500px} 经过不断的合并,最后形成两点派别,贾派对应的高校包括中央财经大学、天津财经大学、西安科技大学等,茆派对应的高校包括北京师范大学、深圳大学、广东财经大学等 **这两派给出的 $\alpha$ 分位数表正好相反,所以初学者必须了解其中的区别。** ![图片](/uploads/2024-12/84ca9c.jpg) 在贾书中,使用的是下分位数,而在茆书中,使用的却是上 $\alpha$ 分位数,所以对于贾书中的 $Z_\alpha$, 我们在茆书中查表的时候, 应该查找 $Z_{(1-\alpha)}$, 以 $\alpha=0.05$ 为例, 在茆书里,可以直接得到$Z_{0.05}=1.645$ ,而在甲书里,需要查找$Z_{0.95}=1.645$,即$1-0.05$,所以一定要区分清楚! > 目前,在考研老师出题里,一般使用的上 $a$ 分位数,但是也有老师使用下$a$ 分位数,注意命题老师给的具体说明 `例`某学校规定划分考生成绩的等级方法如下:考试成绩的实际考分在前10\%的为 $A$ 等,考分在前 $10 \%$ 以后但在前 $50 \%$ 的为 $B$ 等,考分在前 $50 \%$ 以后但在前 $85 \%$ 的为 C等,考分在后 $10 \%$ 的为D等.某次期末考试中,设考生的成绩X服从正态分 布 $X \sim N\left(\mu, \sigma^2\right)$ ,经计算可知 $\mu=73 , \sigma^2=144$ ,求这次期末考试等级划 分的具体分数线。 解 由题意可知 $X \sim N(73,144)$ ,则 $$ \begin{aligned} & P(X \geq a)=1-\Phi\left(\frac{a-73}{12}\right)=0.1 \\ & \Rightarrow\left(\frac{a-73}{12}\right)=u_{0.9}=1.282 \Rightarrow a=88.384 \approx 88 \end{aligned} $$ $$ \begin{aligned} & \text { 又 } P(X \geq b)=1-\Phi\left(\frac{a-73}{12}\right)=0.5 \\ & \Rightarrow\left(\frac{b-73}{12}\right)=u_{0.5}=0 \Rightarrow b=73 \\ & \text { 又 } P(X \leq c)=\Phi\left(\frac{a-73}{12}\right)=0.5 \\ & \Rightarrow\left(\frac{c-73}{12}\right)=u_{0.1}=-u_{0.9}=-1.282 \Rightarrow c \approx 58 \\ & \end{aligned} $$ 综述所求,可知,在此次考试中,分数在88.384以上的,为等级A,分数在73至88.384之间的,为等级B,分数在57.616至73之间的,为等级C,分数在57.616以下的,为等级D。90) ## 置信区间 > 置信区间是参数估计的重要内容,下面给他进行简单解释。 我们通常使用学生的身高来解释置信区间,假设学校初中生的身高分布服从如下正态分布 $(\mu=145, \sigma=1.4)$ : $ X \sim N\left(145,1.4^2\right)$ 也就是说全体人类的平均身高为 145 cm ,为了表示只有上帝可以看到,我把**真实分布**用虚线来表示: ![图片](/uploads/2024-10/43fd2e.jpg){width=400px} 我们不可能把每个学生身高都测量出来,我们只能在人群中抽样统计,比如下面是一次抽样数据,我把算出来的样本均值(记作 $\hat{\mu}$ ) 画在图上(**蓝色的点**): ![图片](/uploads/2024-10/77e9f3.jpg){width=430px} $\hat{\mu}$ 就是对真实的 $\mu$ 的一次点估计。通过一次次的抽样,我们可以算出不同的身高均值的点估计: ![图片](/uploads/2024-10/25f54c.jpg){width=400px} **上图是在知道真实值的情况下,关闭上帝的视角,如下图,如果没有真实值,我们其实并不容易分辨不出哪个点估计更好,**: ![图片](/uploads/2024-10/1f8a25.jpg){width=400px} 为此提出了置信区间,他提供了一种区间估计的方法。想象一下,我们拿一把尺子,尺子中心点对准采样的样本点,那么尺子左端点和右端点形成一个区间,这个区间称作置信区间。 下面采用 $95 \%$ 置信区间来构造区间估计 ![图片](/uploads/2024-10/5b5e0e.jpg){width=400px} 关闭真实值的置信区间是如下的样子。 ![图片](/uploads/2024-10/24a563.jpg){width=400px} 上图显示有7把“尺子”,在关闭真实值的情况下,我们要从这7把尺子里找到最符合真实值的区间,这就是我们本节要研究的工作。 ## 置信区间估计 置信区间,提供了一种区间估计的方法。下面采用 $95 \%$ 置信区间来构造区间估计。也就是尽可能这个尺子套在95%的可能性范围内。 ![图片](/uploads/2024-11/ca256d.jpg){width=400px} 通过 $95 \%$ 置信区间构造出来的区间,我们可以看到,基本上都包含了真实的 ${ }^\mu$ ,除了红色的那根。 关闭上帝视角,我们仍然不知道哪一个区间估计更好: ![图片](/uploads/2024-11/6e69c1.jpg){width=400px} 但是,和点估计比较: - 点估计和区间估计,都不知道哪个点或者哪个区间更好 - 但是,按照 $95 \%$ 置信区间构造出来的区间,随便选一个区间,有 $95 \%$ 的概率会包含 $\hat{\mu}$ 这就好像用渔网捞鱼,我知道每一网下去有 $95 \%$ 的几率捞到想要的那条鱼,但是并不知道是不是现在这一网: ### $95 \%$ 置信区间 假设人群的身高服从: $$ X \sim N\left(\mu, \sigma^2\right) $$ 其中 $\mu$ 未知,$\sigma$已知。 我们不断对人群进行采样,样本的大小为 $n$ ,样本的均值: $$ M=\frac{X_1+X_2+\cdots+X_n}{n} $$ 根据大数定律和中心极限定律, $M$服从: $$ M \sim N\left(\mu, \frac{\sigma^2}{n}\right) $$ 我们可以算出以 $\mu$为中心,面积为 0.95的区间,如下图 ![图片](/uploads/2024-11/82a250.jpg){width=400px} 即: $$ P\left(\mu-1.96 \frac{\sigma}{\sqrt{n}} \leq M \leq \mu+1.96 \frac{\sigma}{\sqrt{n}}\right)=0.95 $$ 也就是, $M$有 $95 \% $ 的几率落入此区间: ![图片](/uploads/2024-11/0987f0.jpg){width=400px} 那自然,我们以 $1.96 \frac{\sigma}{\sqrt{n}}$ 为半径做区间,有 $95 \%$ 的概率把 $\mu$包含进去: ![6.gif](/uploads/2024-11/e4fdc5.gif){width=400px} 那么,只有一个问题了,我们不知道、并且永远都不会知道真实的 $\hat{\mu}$是多少。 我们就只有用 $\hat{\mu}$来代替 $\mu$ : $$ P\left(\hat{\mu}-1.96 \frac{\sigma}{\sqrt{n}} \leq M \leq \hat{\mu}+1.96 \frac{\sigma}{\sqrt{n}}\right) \approx 0.95 $$ > 提示:参考下图,请注意1.96的由来:95%和1.96这2个数字,通常要求可信度占95%,意味着左右两边各占0.025,查找分位表,可得$Z_a=1.96$,所以,普通正态分布化为标准正态分布时,需要进行转换。下面假设检验会进行进一步解释。 ![图片](/uploads/2024-12/8e3967.jpg){width=400px} ![图片](/uploads/2024-12/b82c89.jpg){width=400px} ## 假设检验 因为我们通常使用正态分布,当使用置信区间时,考虑对称性,通常使用 $\frac{\alpha}{2}$ 如下图 比如,有一批化肥,包装服从正态分布,平均重量是50kg,但是因为误差,只要质量在 $48.5kg-51.5kg$之间,我们都认为是合格的。 现在如果有一批化肥 $48.5kg-51.5kg$占比为95%,就可以得到5%是不合格的。 换句话说有$\alpha=0.05$是不合格的,这5%,我们就一分为二,认为2.5% 超过51.5kg, 2.5%低于48.5kg。 ![图片](/uploads/2024-12/0502c8.jpg) 一个常见的问题是:为什么要把5%分解为 2.5%和2.5%,而不是1%和4%,或者2%和3%, 这是因为,在总面积固定的情况下,2.5%误差最小(具体证明有点繁琐,可以参考专业书籍)。这里简单说一下,就像 $a+b=1$,问$a,b$为多少时$a*b$最大,很显然考虑对称性当$a=b=1/2$时有最值。 `例`某车间用一台包装机包装葡萄糖. 包得的袋装质量是一个随机变量, 它服从正态分布. 当机器正常时, 质量 $X \sim N\left(500,2^2\right)$ (单位: g). 某日开工后为检验包装机是否正常, 随机地抽取它所包装的糖 9 袋, 称得质量为$505,499,502,506,498,498,497,510,503$ 试问包装机工作是否正常? 解: 由 $\mu_0=500, \sigma_0=2, \alpha=0.05, n=9$ 及 $$ \bar{x}=(505+499+502+506+498+498+497+510+503) / 9=502 . $$ 检验统计量 $U$ 的值 $$ \begin{gathered} u=\frac{502-500}{2 / 3}=3, \\ |u|=3>1.96=u_{1-\frac{\alpha}{2}} \end{gathered} $$ 样本点落入拒绝域 $W$ 内, 故拒绝原假设 $H_0$, 接受 $H_1$. 在显著性水平 $\alpha=0.05$ 下, 认为这天葡萄糖包装机工作不正常. ### 正态分布表的使用方法 正态分布表如下图,为了让列表不太长,我们把 "0.1" 的值垂直排列,然后把每个 0.1 后面的 "0.01" 值水平排列。形成一个方表,也就是 第一列:$0, 0.1, 0.2, 3.0 $ 精确到小数点的第一位 第一行:$0, 0.01, 0.02, 0.03 ...0.09$ 精确到小数点的第二位 因此要查一个数,比如 $\Phi_0(1.96)$ 需要把$1.96$分解为$1.9$加上$0.06$, 然后按行找到$1.9$,按列找到$0.06$,即可得到$0.975$ 再比如 $\Phi_0(0)=0.5000$ 第一行第一列 $\Phi_0(0.01)=0.5040$ 第一行第二列 $\Phi_0(0.10)=0.5398$ 第二行第一列 $\Phi_0(0.11)=0.5438$ 第二行第一列 ![图片](/uploads/2024-11/2dfcb8.jpg)
上一篇:
第十篇 马尔科夫链
下一篇:
附录2:k阶矩是什么意思
本文对您是否有用?
有用
(
0
)
无用
(
0
)
初中数学
高中数学
高中物理
高等数学
线性代数
概率论与数理统计
复变函数
离散数学
实变函数
数论
群论
纠错
题库
高考
考研
关于
下载
科数网是专业专业的数学网站。