在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
实变函数
数论
群论
你好
游客,
登录
注册
在线学习
概率论与数理统计
第六篇 大数定理与中心极限定理
列维一林德伯格中心极限定理
最后
更新:
2025-02-16 10:58
查看:
264
次
反馈
刷题
列维一林德伯格中心极限定理
列维一林德伯格中心极限定理;德莫弗一拉普拉斯中心极限定理;高尔顿钉板实验
### 引入 ① 误差是人们经常遇到且感兴趣的随机变量, 大量的研究表明, 误差的产生是由大量微小的相互独立的随机因素叠加而成的. 辟如一位操作者在机床上加工机械轴, 使其直径符合规定要求,但加工后的机械轴与规定要求总有一定的误差, 这是因为在加工时受到一些随机因素的影响,包括 在机床方面有机床振动与转速的影响.在刀具方面有装配与磨损的影响.在材料方面有钢材的成分、产地的影响。在操作者方面有注意力集中程度、当天的情绪的影响.在测量方面有量具误差、测量技术的影响.在环境方面有车间的温度、湿度、照明、工作电压的影响.在具体场合还可列出许多其他影响因素. 由于这些因素很多, 每个因素对加工精度的影响都是很微小的, 每个因素的出现都是随机的、是人们无法控制的、时有时无、时大时小、时正时负。这些因素的综合影响最后使每个机械轴的直径产生误差,若将这个误差记为 $Y_n$ ,那么 $Y_n$ 是随机变量,且可以将 $Y_n$ 看作很多微小的随机波动 $X_1, X_2, \cdots, X_n$ 之和,即$Y_n=X_1+X_2+\cdots+X_n$ 这里 $n$ 是很大的,人们关心的是当 $n \rightarrow \infty$ 时," $Y_n$ 的分布是什么?" 当然,我们可以用卷积公式去计算 $Y_n$ 的分布. 但是这样的计算是相当复杂的、不易实现的. 然而,通过大量测试,观察,我们啊发现这种随机变量往往近似呈现正态分布,这种现象是现实世界的客观反映,我们把这种现象称为中心极限定理。 ②导弹击中目标受到多个因素的影响包括:(1)温度 (2)湿度 (3)风速 (4)经纬度等影响。我们发现,虽然这些因素很多,但是这些因素每个影响都不是那么大,通过观察,这些“大量”“独立”“微小”的分布加起来近似呈现出“正态分布”,这就是中心极限定理的通俗说法。 中心极限定理 (CLT) 是概率论中的真正瑰宝之一. 它的**假设很弱**, 并且在实践中通常可以得到满足. 令人惊讶的是其结果的普遍性. 简而言之,对于一些相互独立的 "好" 随机变量, 伴随着变量个数的不断增加, **它们的和将收敛于正态分布**, 而正态分布的均值和方差显然由这些独立变量的均值和方差确定. 中心极限定理可以认为是现实世界的数学反映。 > 中心极限定理通俗的说,小误差不可避免,但是这些小的误差加起来总和呈现正态分布。 > 不同于大数定律,中心极限定理,不是从随机变量某个值的稳定性的角度来考虑稳定性的,而是**从分布的稳定性**来考虑随机变量的稳定性。 ## 独立同分布中心极限定理(也称列维一林德伯格中心极限定理) 设随机变量序列 $X_1, X_2, \cdots, X_n, \cdots$ 相互独立,服从同一分布,其数学期望 $E X_k=\mu_k$ , 方差 $D X_k=\sigma_k^2>0, k=1,2, \cdots$ , 则随机变量 $$ Y_n=\dfrac{\sum_{k=1}^n X_k-E\left(\sum_{k=1}^n X_k\right)}{\sqrt{D\left(\sum_{k=1}^n X_k\right)}}=\dfrac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma} $$ 的分布函数$F_n(x)$ 对于任意 $x$ 满足 $$ \lim _{n \rightarrow \infty} F_n(x)=\lim _{n \rightarrow \infty} P\left\{\dfrac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n} \sigma} \leqslant x\right\}=\int_{-\infty}^x \dfrac{1}{\sqrt{2 \pi}} e^{-\frac{t^2}{2}} d t $$ 这就称随机变量序列 $\left\{X_n\right\}$ 服从独立同分布的中心极限定理. 证明略. 从上面结论容易知道,当 $n$ 充分大时,近似地有 $$ \boxed{ Y_n=\dfrac{\sum_{k=1}^n X_k-n \mu}{\sqrt{n \sigma^2}} \sim N(0,1) . } $$ 或者说,当 $n$ 充分大时,近似地有 $$ \boxed{ \sum_{k=1}^n X_k \sim N\left(n \mu, n \sigma^2\right) } $$ 虽然在一般情况下很难求出 $X_1+X_2+\cdots+X_n$ 的分布的确切形式,但当 $n$ 很大时,可求出其近似分布。由定理结论有 $$ \dfrac{\sum_{i=1}^n X_i-n \mu}{\sigma \sqrt{n}} \stackrel{\text { 近似 }}{\sim} N(0,1) \Rightarrow \dfrac{\frac{1}{n} \sum_{i=1}^n X_i-\mu}{\sigma / \sqrt{n}} \stackrel{\text { 近似 }}{\sim} N(0,1) \Rightarrow \bar{X} \sim N\left(\mu, \sigma^2 / n\right), \quad \bar{X}=\frac{1}{n} \sum_{i=1}^n X_i . $$ 故定理又可表述为:当 $n$ 充分大时,均值为 $\mu$ ,方差为 $\sigma^2>0$ 的独立同分布的随机变量 $X_1, X_2, \cdots, X_n, \cdots$ 的算术平均值 $\bar{X}$ 近似地服从均值为 $\mu$ ,方差为 $\sigma^2 / n$ 的正态分布.这一结果是数理统计中大样本统计推断的理论基础. ### 中心极限定理的通俗解释 中心极限定理通俗的解释就是: >①样本的平均值约等于总体的平均值。②不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。 上面第一句话的意思是样本的平均值约定于或者说依概率收敛于总体的平均值。 那第二句话是什么意思呢? 比如我们进行取样,每一次取样取一百条数据,这是一个样本,样本中每条数据它的值都是服从相同分布的,我们把这一次的取样结果的平均值即为 $\overline{\mathrm{X}}$ ,称为样本平均值。很明显 $\overline{\mathrm{X}}$ 也是一个变量,意思是每一次的取样这个样本平均值都有可能不同。但是中心极限定理指出 $\overline{\mathrm{X}}$围绕着总体的整体平均值周围,并且成正态分布。 这里总体的整体平均值又是什么呢?其实并不是指简单的所有数据的平均值。假设我们把$V$当作随机取到一个数据的值,那么随机变量$V$的数学期望就是整体平均值。所以它应该是数学期望。这里总体均值上面大数定律中提到的是一样的,都是数学期望。 下面再以一个具体的例子进行说明。 假设有一个群体,如清华毕业的人,我们对这类人群的收入感兴趣。怎么知道这群人的收入呢?我会做这样4步: - 第1步.随机抽取1个样本,求该样本的平均值。例如我们抽取了100名毕业于清华的人,然后对这些人的收入求平均值。该样本里的 100名清华的人,这里的100就是该样本的大小。有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。 - 第2步.我将第1步样本抽取的工作重复做几次,不断地从其它清华毕业的人中随机抽取 100 个人,例如我抽取了 5 个样本,并计算出每个样本的平均值,那么 5 个样本,就会有 5 个平均值。这里的 5 个样本,就是指样本数量是 5 。 - 第3步.根据中心极限定理,这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。 - 第4步.中心极限定理告诉我们,不论所研究的群体是怎样分布的,这些样本平均值会在总体平均值周围呈现一个正态分布。 为了跟上面的举例做一个衔接 。我们可以把 $\mathrm{X}_1, \mathrm{X}_2, \ldots \mathrm{X}_{\mathrm{n}}$ 看作是一个样本,或者说一次大试验,而每一个$X$都是描述一个数据,或者说一次小实验。那么这个样本的均值 $\overline{{X}}$ ,也就是 $\frac{1}{{n}} \sum_{{k}=1}^{{n}} {X}_{{k}}$ 它始终围绕在 $\mu$ 周围,而且它的标准差是 $\frac{1}{\sqrt{{n}}} \sigma$ ,而且它服从正态分布。这个可以从上面的定理推出来。 上面的随机变量 $Y$ 其实就是把变量 $Y^{\prime}=\bar{X}$ 标准化了,变成了均值为 0 ,方差为 1 的正态分布。 同时上面的极限符号也说明了样本大小或随机变量个数 $n$ 越大, $\overline{\mathrm{X}}$ 分布就越接近正态分布。当 $n$ 趋于无穷时,这是 $\bar{X}$ 分布的标准差就趋于零,也就是这时候的样本平均值几乎等于总体平均值(数学期望)。 `例` 某汽车销售点每天出售的汽车数 $X$ 服从参数为 $\lambda=2$ 的泊松分布,即 $X \sim$ $P(2)$ ,若一年 365 天都经营汽车销售,且每天售出的汽车数是相互独立的,求一年中售出 700辆以上的概率. 解 记 $X_i$ 为第 $i$ 天售出的汽车数,则 $Y=X_1+X_2+\cdots+X_{365}$ 为一年的总销售量,由题意知 $E\left(X_i\right)=D\left(X_i\right)=2$ ,则 $E(Y)=D(Y)=365 \times 2=730$ ,由定理 5.3.1 可得: $$ P(Y>700)=1-P(Y \leqslant 700)=1-\Phi\left(\frac{700-730}{\sqrt{730}}\right)=1-\Phi(-1.11)=0.8665 \text {, } $$ 即该销售点一年售出 700 辆以上汽车的概率近似为 0.8665 . 由于中心极限定理的证明需要注意: (1)定理的三个条件"独立,同分布,期望和方差存在",缺一不可. (2)只要 $X_n$ 满足定理条件,那么当 $n$ 很大时,独立同分布随机变量的和 $\sum_{i=1}^n X_i$ 近似服从正态分布 $N\left(n \mu, n \sigma^2\right)$ ,由此可知,当 $n$ 很大时,有 $$ P\left\{a<\sum_{i=1}^n X_i<b\right\} \approx \Phi\left(\frac{b-n \mu}{\sqrt{n} \sigma}\right)-\Phi\left(\frac{a-n \mu}{\sqrt{n} \sigma}\right) $$ 这常常是解题的依据。只要题目涉及独立同分布随机变量的和 $\sum_{i=1}^n X_i$ ,我们就要考虑独立同分布中心极限定理。 中心极限定理是实际的反应,例如,在误差分析中,各次测量误差的总和近似服从正态分布.十九世纪德国数学家高斯正是在研究测量误 差时,引入了正态分布(在此之前,棣莫弗和拉普拉斯已经将正态分布引入概率论),并对正态分布进行研究,因此也称正态分布为高斯分布. `例` (**正态随机数的产生**) 在随机模拟(蒙特卡罗方法)中经常需要产生正态分布 $N\left(\mu, \sigma^2\right)$ 的随机数,一般统计软件都有产生正态随机数的功能。它是如何产生的呢?下面介绍用中心极限定理通过 $(0,1)$ 上均匀分布的随机数来产生正态分布 $N\left(\mu, \sigma^2\right)$ 的随机数的一种方法. 设随机变量 $X$ 服从 $(0,1)$ 上的均匀分布,则其数学期望与方差分别为 $1 / 2$ 和 $1 / 12$.由此得 12 个相互独立的 $(0,1)$ 上均匀分布随机变量和的数学期望与方差分别为 6 和 1. 因此我们可以如下产生正态分布 $N\left(\mu, \sigma^2\right)$ 的随机数. (1) 从计算机中产生 12 个 $(0,1)$ 上均匀分布的随机数, 记为 $x_1, x_2, \cdots, x_{12}$. (2) 计算 $y=x_1+x_2+\cdots+x_{12}-6$, 则由林德伯格 - 莱维中心极限定理知, 可将 $y$ 近似看成来自标准正态分布 $N(0,1)$ 的一个随机数. (3) 计算 $z=\mu+\sigma y$ ,则可将 $z$ 看成来自正态分布 $N\left(\mu, \sigma^2\right)$ 的一个随机数. (4) 重复 (1) $-(3) n$ 次, 就可得到 $N\left(\mu, \sigma^2\right)$ 分布的 $n$ 个随机数. 从这个例子可以看出, 由 12 个均匀分布的随机数得到 1 个正态分布的随机数是利用了中心极限定理. `例`(**数值计算中的误差分析**) 在数值计算中, 任何实数 $x$ 都只能用一定位数的小数 $x^{\prime}$ 来近似. 譬如在计算中取 5 位小数, 第 6 位以后的小数都用四舍五人的方法舍去, 如 $\pi=3.141592654 \cdots$ 和 $e=2.718281828 \cdots$ 的近似数为 $\pi^{\prime}=3.14159$ 和 $e^{\prime}=$ 2.71828 . 现在如果要求 $n$ 个实数 $x_i(i=1,2, \cdots, n)$ 的和 $S$, 在数值计算中, 只能用 $x_i$的近似数 $x_i^{\prime}$ 来得到 $S$ 的近似数 $S^{\prime}$, 记个别误差为 $\varepsilon_i=x_i-x_i^{\prime}$, 则总误差为 $$ S-S^{\prime}=\sum_{i=1}^n x_i-\sum_{i=1}^n x_i^{\prime}=\sum_{i=1}^n \varepsilon_i \text {. } $$ 若在数值计算中, 取 $k$ 位小数, 则可认为 $\varepsilon_i$ 服从区间 $\left(-0.5 \times 10^{-k}, 0.5 \times 10^{-k}\right)$ 上的均匀分布, 且相互独立. 下面我们来估计总误差.一种粗略的估计方法是: 由于 $\left|\varepsilon_i\right| \leqslant 0.5 \times$ $10^{-k}$, 所以 $$ \left|\sum_{i=1}^n \varepsilon_i\right| \leqslant n \times 0.5 \times 10^{-k} $$ 现在用中心极限定理来估计:因为 $\left\{\varepsilon_i\right\}$ 独立同分布,且 $$ E\left(\varepsilon_i\right)=0, \quad \operatorname{Var}\left(\varepsilon_i\right)=\frac{10^{-2 k}}{12} $$ 因此对总误差有 $$ E\left(\sum_{i=1}^n \varepsilon_i\right)=0, \quad \operatorname{Var}\left(\sum_{i=1}^n \varepsilon_i\right)=\frac{n 10^{-2 k}}{12} $$ 由林德伯格-莱维中心极限定理知, 对任意的 $z>0$, 有 $$ P\left(\left|\sum_{i=1}^n \varepsilon_i\right| \leqslant z\right) \approx \Phi\left(\frac{z \sqrt{12}}{\sqrt{n 10^{-2 k}}}\right)-\Phi\left(-\frac{z \sqrt{12}}{\sqrt{n 10^{-2 k}}}\right)=2 \Phi\left(\frac{z \sqrt{12}}{\sqrt{n 10^{-2 k}}}\right)-1 $$ 要从上式中求出总误差的上限 $z$, 可令上式右边的概率为 0.99 , 由此得 $$ \Phi\left(\frac{z \sqrt{12}}{\sqrt{n 10^{-2 k}}}\right)=0.995 $$ 再查标准正态分布函数的 0.995 分位数得 $$ \frac{z \sqrt{12}}{\sqrt{n 10^{-2 k}}}=2.576 $$ 由此解得 $$ z=\frac{2.576 \sqrt{n \times 10^{-2 k}}}{\sqrt{12}}=0.7436 \times \sqrt{n \times 10^{-2 k}}=0.7436 \times \sqrt{n} \times 10^{-k} . $$ 也就是我们有 $99 \%$ 的把握,可以说 $$ \left|\sum_{i=1}^n \varepsilon_i\right| \leqslant 0.7436 \times \sqrt{n} \times 10^{-k} $$ 辟如在数值计算中保留 5 位小数, 求 10000 个近似数之和的总误差, 用上式1估计为 0.05 , 而用 上式2估计, 可以概率 0.99 保证为 0.0007436 , 即万分之七左右. 从上例可以看出, 利用中心极限定理不但可以求总误差的上限, 还可以给出一定的可信程度. `例`一生产线生产的产品成箱包装,每箱的质量是随机的.假设每箱平均质量为 50 kg ,标准差为 5 kg .若用最大载重量为 5 t 的汽车承运,试利用中心极限定理说明每辆车最多可以装多少箱,才能保障不超载的概率大于 0.977 。 解 设每辆车可以装 $n$ 箱.记 $X_i$ 为第 $i$ 箱的质量(单位: kg ),$i=1,2, \cdots, n$ .由题意知 $X_1, X_2, \cdots, X_n$ 为独立同分布的随机变量,并且 $E X_i=50$ , $D X_i=25$. 而 $n$ 箱的总质量为 $T_n=X_1+X_2+\cdots+X_n$ ,计算得 $E T_n=50 n, D T_n=25 n$ . 根据列维-林德伯格中心极限定理,$T$ 近似服从 $N(50 n, 25 n)$ 。由题意知, $$ \begin{gathered} P\left\{T_n \leqslant 5000\right\}=P\left\{\frac{T_n-50 n}{5 \sqrt{n}} \leqslant \frac{5000-50 n}{5 \sqrt{n}}\right\}=\Phi\left(\frac{1000-10 n}{\sqrt{n}}\right)>0.977 \approx \Phi(2) . \\ \end{gathered} $$ 由此可见,$\frac{1000-10 n}{\sqrt{n}}>2$ ,从而 $n<98.0199$ ,即最多可以装 98 箱. `例` (**高尔顿钉板实验**)如图,有一排有一个板上面有 排钉子,每排相邻的两 个钉子之间的距离均相等。上一排钉子的水平位置恰巧位 于下一排紧邻的两个钉子水平位置的正中间。从上端入口 处放入小球,在下落过程中小球碰到钉子后以相等的可能 性向左或向右偏离,碰到下一排相邻的两个钉子中的一个。 如此继续下去,直到落入底部隔板中的一格中。问当有大 量的小球从上端依次放入,任其自由下落,问小球最终在底 板中堆积的形态. 设钉子有 16 排  首先进行分析。小球堆积的形态取决于小球最终下落在底部隔板的位置的分布。设随机变 量 $X$ 为 "小球最终下落在底部隔板中的位置" 。又引入随机变量 $$ X_i=\left\{\begin{array}{cl} -1, & \text { 小球碰到第 } i \text { 排钉子向左下落, } \\ 1 & \text { 小球碰到第 } i \text { 排钉子向右下落。 } \end{array} i=1, \cdots, n\right. $$ 显然 $X=\sum_{i=1}^n X_i$ 和的分布计算是复杂的。有没有其他的方法呢? 经过试验我们观察发现小球堆积形态呈现出中间高两边低的特点,$X$ 近似服从正态分布。 在街头赌博中,庄家在高尔顿钉板的底板两端距离原点超出8格的位置放置了值钱的东西来吸引顾客,试用中心极限定理来揭穿这个街头赌博中的骗术。 解 设 $X$ 为"小球在底板中的位置",$X_i=\left\{\begin{array}{cl}-1, & \text { 小球碰到第 } i \text { 排钉子向左下落,} \\ 1 & \text { 小球碰到第 } i \text { 排钉子向右下落。 }\end{array}\right.$ $i=1,2, \cdots, 16$ 显然 $X_1, \cdots, X_{16}$ 相互独立且同分布,且 $X=\sum_{i=1}^{16} X_\rho \quad X_i$ 的概率函数如表  所以, 有 $$ \begin{aligned} & E\left(X_i\right)=-1 \times 0.5+1 \times 0.5=0, \\ & E\left(X_i^2\right)=(-1)^2 \times 0.5+1^2 \times 0.5=1, \\ & D\left(X_i\right)=1, i=1, \cdots, 16, \\ & E\left(\sum_{i=1}^{16} X_i\right)=16 \times 0=0, D\left(\sum_{i=1}^{16} X_i\right)=16 \times 1=16, \end{aligned} $$ 由列维-林德伯格中心极限定理知 $X=\sum_{i=1}^{16} X_i \stackrel{\text { 近似 }}{\sim} N(0,16)$ .因此 $$ \begin{aligned} P(|X|>8) & =P(X>8)+P(X<-8) \\ & \approx 1-\Phi\left(\frac{8-0}{\sqrt{16}}\right)+\Phi\left(\frac{-8-0}{\sqrt{16}}\right)=2[1-\Phi(2)]=0.0456 \end{aligned} $$ 说明顾客中奖的可能性微平其微。 ## 三大中心极限定理区别 独立同分布的中心极限定理 $\left.\lim _{n \rightarrow \infty} P\left(\dfrac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma }\right) \le x \right)=\int_{-\infty}^x \frac{1}{\sqrt{2 \pi}} e ^{-\frac{t^2}{2}} d t=\Phi(x)$ 李雅普诺夫定理 $\lim _{n \rightarrow \infty} P\left\{\dfrac{\sum_{i=1}^n X_i-\sum_{i=1}^n \mu_i }{\sqrt{\sum_{k=1}^n \sigma_k^2}} \leqslant x \right\}=\int_{-\infty}^x \frac{1}{\sqrt{2 \pi}} e ^{-\frac{t^2}{2}} d t=\Phi(x)$ 棣莫弗-拉普拉斯定理 $\lim _{n \rightarrow \infty} P \left\{\dfrac{X-n p}{\sqrt{n p(1-p)}} \leqslant x\right\}=\int_{-\infty}^x \frac{1}{\sqrt{2 \pi}} e ^{-\frac{t^2}{2}} dt =\Phi(x)$
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
大数定律
下一篇:
李雅普诺夫中心极限定理
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。