在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
首页
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
你好
游客,
登录
注册
在线学习
高中数学
第十二章:排列组合与概率统计
正态分布
最后
更新:
2025-04-11 18:14
查看:
161
次
反馈
刷题
正态分布
正态分布
## 什么是正态分布? 假设你的老妈担心你的单身生活,为此,在相亲网站给你寻找相亲对象,她把你的照片放到了相亲网站后,一下子吸引来了200多个女性留言,要与你"私定终身"。老妈为了提高篮选效率,于是乎就建了一个微信群,让所有人报一下自己准确的身高。 为了统计方便。她以5厘米为单位,数一数每一段5厘米各有多少人。接着用身高为横轴,人数为纵轴,画了下面这张图。 仔细看这张图,你和老妈发现一个惊人的秘密:这张图形状是**中间高,两边低**,长得像一只倒扣的钟。这意味着什么?意味着大部分女性身高在150-165cm之间,身高低于150cm或者高于165cm的都比较少。 这个图形的分布,就是正态分布。  如果你在仔细看,身高在 低于143 和高于173的人更少,换句话说,$99.7 \%$ 的女生身高在 143-173 之间,这个被称为$3 \sigma$ 原则. ## 正态分布 > 注:正态分布是高斯发明的,所以又被成为“**高斯分布**” 现今的信息时代,各媒体都充斥着数据,因此正确地理解数据成为非常重要的事。正态分布已经是生活中一个常用的词了。例如,我们常提起学生的考试成绩是不是正态分布,某个城市的家庭收人是不是正态分布,等等。那么,究竟什么是正态分布呢?平日所说的正态分布,大体上是指数据对称地分布在某个中心值两边,且离中心值越远,分布得越少. 一包米的外包装上标示的质量是 5000 g ,但实际上是有误差的.假设包装米的公司没有偷工减料,计量员精确地检测所有在售的该种米,把米包质量的频率分布直方图画出来,会是一个什么形状呢?图 7-3-1 中是一条峰值在 5000 g 左右的曲线,它具有一个单峰,粗略展示了一个正态分布的形状.实际上,很多测量数据的分布都呈现出这样的形状. {width=400px} 数学中的正态分布是指由下面的函数所表达的分布: $$ \varphi_{\mu, \sigma^2}(x)=\frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}, $$ 其中有两个参数: (1)$\mu$ 是该分布的期望或均值; (2)$\sigma^2$ 是该分布的方差,且总是假设 $\sigma>0$ . 这个函数的图像如同钟形,如图 7-3-2 所示.该函数在数学上称为正态密度函数,也称为钟形曲线. {width=500px} ## 理解正态分布图的意思 为了方便理解密度函数,下图是上图的一个简化版的密度分布图。 从这里需要理解2个意思: (1)曲线下为此的面积为1. 因为曲线每一点表示事件出现的概率,而所有概率最大为1,因此,曲线和$x$轴围成的面积为1. (2)曲线左右对称,且在$x= \mu$ 时取得最大值。这里可以以本节一最开始的引例为例,因为身高呈现正态分布,所以在中间的分布人数最多,换句话说,在中间的人数概率最大。 {width=400px} > 完整理解正态分布度高中生来说是比较困难的一件事,如果你对自己要求较高,可以看一下大学版正态分布介绍,详见 [此处](https://kb.kmath.cn/kbase/detail.aspx?id=532) **定义 设 $X$ 是一个取实数值的随机变量.如果对任何给定的实数 $a$ 与 $b(a<b), X$ 落在区间 $(a, b)$ 上的概率 $P(a<X<b)$ 等于三条直线:$y=0, ~ x=a, ~ x=b$ 与正态密度函数 $y=\varphi_{\mu, \sigma^2}(x)$ 的图像所围的区域面积(或者简称作此函数在该区间上的面积,如图 7-3-3 所示),那么 $X$ 服从正态分布(normal distribution),或更准确地说,$X$ 服从参数为 $\mu, ~ \sigma^2$ 的正态分布** ,记为 $$ \boxed{ X \sim N\left(\mu, \sigma^2\right) . } $$  ## 标准正态分布 当 $\mu=0, ~ \sigma^2=1$ 时,相应的正态分布称为**标准正态分布**,记作 $X \sim N(0,1)$ ,其密度函数 $$ y=\frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} $$ 称为**标准正态分布的密度函数**,简记作 $y=\varphi(x)$ 。实际上,一般的正态分布的密度函数总是标准正态分布的密度函数的某种平移和伸缩变换,其形状保持钟形不变。 用 $\Phi(x)$ 表示标准正态分布的密度函数 $y=\varphi(x)$ 从 $-\infty$ 到 $x$的累计面积,如图 7-3-4 所示,称为**标准正态分布函**数. 这个函数没有简单的表达式,其函数值可通过近似计算得到.我们也可以通过某些型号的计算器来查它或者它的反函数的值,如 $$ \Phi(1) \approx 0.8413, \Phi(2) \approx 0.9772, \Phi(3) \approx 0.9987, \cdots $$ ## 标准正态分布的密度函数是偶函数 容易验证 $y=\varphi(x)$ 是一个偶函数,所以该函数在区间 $(-\infty,-x)$ 上的面积等于其在区间 $(x,+\infty)$ 上的面积,如图 7-3-5所示.此外,由于 $y=\varphi(x)$ 与 $x$ 轴所围面积为 1 ,因此 $y=\Phi(x)$ 满足 $$ \Phi(-x)=1-\Phi(x) $$  如果 $X \sim N\left(\mu, \sigma^2\right)$ ,那么将 $X$ 平移再伸缩后将服从标准正态分布,即成立 $$ \frac{X-\mu}{\sigma} \sim N(0,1) $$ 这样,正态分布 $X \sim N\left(\mu, \sigma^2\right)$ 的密度函数的图像是一条钟形曲线,它关于直线 $x=\mu$ 对称,其最大值在 $x=\mu$ 处达到.在 $x=\mu$ 的左侧,函数严格增,而在 $x=\mu$ 的右侧,函数严格减,从而它是一条单峰曲线。当区间 $(a, b)$ 在 $x$ 轴上平移时,显然当 $\mu$处于该区间的中心时,概率 $P(a<X<b)$ 即函数在区间 $(a, b)$ 上的面积达到最大.因此,我们通常说正态分布集中在其期望 $\mu$ 的附近,即参数 $\mu$ 表示分布集中的位置. 另外一个参数 $\sigma$ 描述的是分布的集中程度.从图 7-3-2 中可以看出,密度函数的最大值在 $x=\mu$ 处达到,其最大值为 $$ \varphi_{\mu, \sigma^2}(\mu)=\frac{1}{\sqrt{2 \pi} \sigma} $$ 它与 $\sigma$ 成反比.由于图像与 $x$ 轴之间的区域的总面积是一个固定值1,因此当 $\sigma$ 变小时,最大值变大,钟形变"高瘦",分布向中心 $x=\mu$ 处集中;反之,当 $\sigma$ 变大时,最大值变小,钟形变"矮胖",分布向 $x=\mu$ 的两侧分散. 出于种种原因,在测量的过程中总有误差存在.通常我们总假设误差是一个服从正态分布的随机变量。 `例` 某公司生产的糖果每包标识质量是 500 g ,但公司承认实际质量存在误差.已知每包糖果的实际质量服从 $\mu=500$ , $\sigma^2=2.5^2$ 的正态分布.问:随意买一包该公司生产的糖果,其质量误差超过 5 g (即 $1 \%$ )的可能性有多大?(结果精确到 $0.1 \%$ ) 解 用 $X$ 表示糖果质量,由题意,可知 $X \sim N\left(500,2.5^2\right)$ 。要求 $|X-500|>5$ 的概率,即求 $P(|X-500|>5)$ 的值.令 $Y=\frac{X-500}{2.5}$ ,则 $Y \sim N(0,1)$ .因此,有 $$ \begin{aligned} P(|X-500|>5) & =P(|Y|>2)=P(Y>2)+P(Y<-2) \\ & =2 \Phi(-2)=2(1-\Phi(2)) \\ & \approx 2 \times(1-0.9772)=2 \times 0.0228 \\ & =0.0456 \approx 4.6 \%, \end{aligned} $$ 即误差超过 5 g 的可能性约是 $4.6 \%$ 。 ## $3 \sigma$(sigma)原则 `例`设 $X$ 为任取的某袋有包装误差的产品的质量, $X \sim N\left(\mu, \sigma^2\right)$ .分别求 $|X-\mu|<\sigma,|X-\mu|<2 \sigma$ 及 $|X-\mu|<3 \sigma$的概率。(结果精确到 $0.1 \%$ ) 解 令 $$ Y=\frac{X-\mu}{\sigma} . $$ 那么 $P(|X-\mu|<\sigma)=P(|Y|<1)$ .而 $P(|Y|<1)$ 是标准正态分布的密度函数在区间 $(-1,1)$ 上的面积,它等于函数在区间 $(-\infty, 1)$ 上的面积减去在区间 $(-\infty,-1)$ 上的面积.这样,就有 $$ \begin{aligned} P(|Y|<1) & =\Phi(1)-\Phi(-1)=\Phi(1)-(1-\Phi(1)) \\ & =2 \Phi(1)-1 \approx 2 \times 0.8413-1 \\ & =0.6826 \approx 68.3 \% \end{aligned} $$ 同样, $$ \begin{aligned} & P(|Y|<2)=2 \Phi(2)-1 \approx 2 \times 0.9772-1=0.9544 \approx 95.4 \% \\ & P(|Y|<3)=2 \Phi(3)-1 \approx 2 \times 0.9987-1=0.9974 \approx 99.7 \% \end{aligned} $$ 因此,随意购买一袋该产品,约有 $68.3 \%$ 的可能性其质量在 $\mu$ 左右 $\sigma$ 的范围内;约有 $95.4 \%$ 的可能性其质量在 $\mu$ 左右 $2 \sigma$ 的范围内;约有 $99.7 \%$ 的可能性其质量在 $\mu$ 左右 $3 \sigma$ 的范围内,如图 7-3-6 所示.这称为正态分布的 $3 \sigma$(sigma)原则.  ## 正态分布另版介绍 前面我们已经初步认识了离散型随机变量及其分布,它们的可能值或者是有限个,或者是可数无穷多个,但在实践中,还有取值不是有限个或可数无穷多个的随机变量.在这类随机变量中,最常见的是连续型随机变量.下面我们来学习概率论中一种重要的连续型随机变量——正态分布。 很早以前,人们并不知道圆周率 $\pi$ 的大小(我们也假设 $\pi$ 是未知的),于是可以通过研究圆的直径和周长的关系来了解圆周率的大小. 例如,对直径为 1 cm 的圆的周长进行测量.由于多种偶然因素的影响,测量出的数据是有差异的。若记 $X$ 为测量出的数据,则 $X$ 是一个随机变量.实际问题中需要关心 $X$ 取值的概率分布。为了确定 $X$ 的概率分布,我们记录了 90 次测量的数据 (即样本点个数为 90 ),把它们进行分组整理后得如下分组数据表:  以测量出的数据为横坐标,以组频率/组距为纵坐标,就可以得到频率分布直方图(如图3.3-1).图3.3-1 中每个小矩形的面积就是样本落在该分组区间内的频率.  当样本点个数越来越大,分组数越来越多时(即组距无限缩小),频率分布直方图的顶边会无限缩小乃至形成一条光滑的曲线(如图3.3-2).  随机变量 $X$ 在每个小区间内取值的频率,接近于 $X$ 在那个区间中取值的概率,因此,我们把这条曲线称为 $X$ 的概率密度曲线. 从图 3.3-2 可以看出,曲线呈现"中间高,两边低,左右大致对称"的特点,我们把具有这种特性的曲线叫作正态分布密度曲线,简称正态曲线,它的函数表达式为 $$ p(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma^2}}(-\infty<x<+\infty), $$ 其中 $\mu$ 和 $\sigma$ 为参数,且 $\sigma>0, \mu \in R . p(x)$ 称为概率密度函数.此时,我们称随机变量 $X$ 服从参数为 $\mu$ 和 $\sigma^2$ 的正态分布,简记为 $X \sim N\left(\mu, \sigma^2\right)$ 。 不同的 $\mu$ 和 $\sigma$ 对应着不同的正态分布密度曲线(如图 3.3-3).  正态分布密度曲线具有如下特点: 1.曲线位于 $x$ 轴上方,与 $x$ 轴不相交; 2.曲线是单峰的,它关于直线 $x=\mu$ 对称; 3.$p(x)$ 在 $x=\mu$ 处达到最大值 $\frac{1}{\sqrt{2 \pi} \sigma}$ ; 4.当 $\sigma$ 一定时,曲线随着 $\mu$ 的变化而沿 $x$ 轴平移; 5.$\sigma$ 越大,正态曲线越扁平,$\sigma$ 越小,正态曲线越尖陡; 6.曲线与 $x$ 轴之间所夹区域的面积等于 1 . 随机变量 $X$ 落在区间 $(a, b]$ 中的概率可以通过概率密度函数 $p(x)$ 来描述,即 $P(a<X \leqslant b)$ 恰好是由 $p(x)$ 对应的曲线和直线 $x=a, x=b$ ,以及 $x$ 轴所围成的曲边梯形的面积(如图3.3-4).  对于离散型随机变量,如果 $X$ 是从某个总体中随机抽取的个体,则 $X$ 的数学期望 $E(X)$ 就是总体均值 $\mu$ ;如果 $X$ 的分布关于点 $\mu$ 对称,则 $\mu$ 便是 $X$ 的数学期望.现在,正态分布 $N\left(\mu, \sigma^2\right)$ 的密度函数 $p(x)=\frac{1}{\sqrt{2 \pi} \sigma} e ^{-\frac{(6-\mu)^2}{2 \sigma^2}}(-\infty<x<+\infty)$ 关于点 $\mu$对称,所以 $\mu$ 是 $X$ 的数学期望,即 $E(X)=\mu$ 。 随机变量 $X$ 的方差 $D(X)$ 代表了随机变量 $X$ 的离散程度。当 $X$ 的数学期望为 $\mu$时,$D(X)=E\left[(X-\mu)^2\right]$ 。如果 $X$ 服从正态分布 $N\left(\mu, \sigma^2\right)$ ,则可以计算出 $X$ 的方差 $D(X)=\sigma^2$ 。于是,$X$ 的标准差为 $\sigma$ 。 从图 3.3-3 也可以看出,标准差 $\sigma$ 越大,正态曲线越扁平,说明 $X$ 的取值越分散;$\sigma$ 越小,正态曲线越尖陡,说明 $X$ 的取值越集中在数学期望 $\mu$ 附近.  特别地,数学期望 $\mu=0$ ,方差 $\sigma^2=1$ 时的正态分布称为标准正态分布,其密度函数记为 $$ \varphi(x)=\frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}}(-\infty<x<+\infty), $$ 其图象如图 3.3-5 所示,随机变量 $X$ 服从标准正态分布,简记为 $X \sim N(0,1)$ 。 正态分布在概率和统计中占有重要的地位.现实中,许多随机变量都服从正态分布或近似服从正态分布.例如,只受随机因素影响的测量值,稳定生产条件下的产品质量指标等都服从正态分布 ${ }^{(1)}$ ;生物和动物的许多生理指标等,都服从或近似服从正态分布.甚至当 $n$ 很大时,二项分布也可以用正态分布来近似描述. 若 $X \sim N\left(\mu, \sigma^2\right)$ ,则随机变量 $X$ 在 $\mu$ 的附近取值的概率较大,在离 $\mu$ 较远处取值的概率较小. 具体地,如图 3.3-6 所示,随机变量 $X$ 取值 落在区间 $(\mu-\sigma, \mu+\sigma)$ 内的概率约为 $68.27 \%$ , 落在区间 $(\mu-2 \sigma, \mu+2 \sigma)$ 内的概率约为 $95.45 \%$ , 落在区间 $(\mu-3 \sigma, \mu+3 \sigma)$ 内的概率约为 $99.73 \%$ .  由图 3.3-6 可以看出,正态总体几乎总取值于区间 $(\mu-3 \sigma, \mu+3 \sigma)$ 之内.而在此区间以外取值的概率不足 0.003 ,通常认为这种情况在一次试验中几乎不可能发生。 在实际应用中,通常认为服从正态分布 $N\left(\mu, \sigma^2\right)$ 的随机变量 $X$ 只取 $(\mu-3 \sigma$ , $\mu+3 \sigma)$ 之间的值,并简称为 $3 \sigma$ 原则. `例`在某次数学考试中,假设考生的成绩 $\xi$ 服从正态分布 $\xi \sim N(90,100)$ . (1)求考试成绩 $\xi$ 位于区间( 70,110 )上的概率; (2)若这次考试共有 2000 名考生,试估计考试成绩在( 80,100 )间的考生大约有多少人. 解 因为 $\xi \sim N(90,100)$ , 所以 $\mu=90, \sigma=\sqrt{100}=10$ . (1)由正态分布的性质可知,考生成绩在 $\mu-2 \sigma=90-2 \times 10=70$ 和 $\mu+2 \sigma=$ $90+2 \times 10=110$ 之间的概率约为 0.9545 。 (2)由正态分布的性质可知,考生成绩在 $\mu-\sigma=80$ 和 $\mu+\sigma=100$ 之间的概率是 0.682 7.又因为一共有 2000 名学生参加考试,因此考试成绩在( 80,100 )间的考生大约有 $2000 \times 0.6827 \approx 1365$(人).
开VIP会员
非会员每天6篇,会员每天16篇,VIP会员无限制访问
题库训练
自我测评
投稿
上一篇:
超几何分布
下一篇:
正态密度函数的变换与标准化
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。