在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
你好
游客,
登录
注册
在线学习
高中数学
第十二章:排列组合与概率统计
极差、方差与标准差
最后
更新:
2025-02-12 17:15
查看:
528
次
反馈
刷题
极差、方差与标准差
## 极差 在统计学中,我们将一组数据中的最大值与最小值统称为极值,将最大值与最小值之差称为极差,也称全距,用 $R$ 表示。 例如,某地随机抽取 9 个家庭,调查得到每个家庭的人均月收人(单位:元)为 $$ 1080,750,1080,1080,850,960,2000,1250,1630, $$ 则 9 个家庭人均月收人的极差 $$ R=2000-750=1250 \text { (元). } $$ 极差反映了一组数据变化的幅度,是描述数据离散程度的最简单的代表值,计算简单又易于理解,但它容易受极端值的影响。由于极差只利用了一组数据两端的信息,不能反映中间数据的离散状况,因而不能全面地描述数据的离散程度. ## 方差 学校从甲,乙两名射击运动员中选拔一人参加市中学生运动会,甲,乙两人参加测试的成绩(单位:环)如下: $$ \begin{aligned} & \text { 甲 }: 7,8,8,9,7,8,8,9,7,9 \\ & \text { 乙: } 6,8,7,7,8,9,10,7,9,9 \end{aligned} $$ 教练员该如何选出合适选手? 很自然地,我们首先考虑两人射击测试的平均成绩,经计算得 $$ \bar{x}_{\text {甲 }}=8.0, \quad \bar{x}_{\text {乙 }}=8.0, $$ 可见两人的平均成绩相同.那么是否意味着两个人的射击水平没有差异呢? 我们可以将甲,乙的射击成绩表示在图 6.4-2 中.  比较上面两幅图可以发现,甲的射击成绩大多集中在平均成绩 8 环的附近,而乙的射击成绩与平均成绩比较,波动较大。 统计上,常采用方差来刻画一组数据波动的大小:若设 $y_1, y_2, \cdots, y_N$ 是总体的全部个体,$\mu$ 是总体均值,则称 $$ \sigma^2=\frac{\left(y_1-\mu\right)^2+\left(y_2-\mu\right)^2+\cdots+\left(y_N-\mu\right)^2}{N} $$ 为总体方差或方差。 总体方差 $\sigma^2$ 刻画了总体中的个体向总体均值 $\mu$ 的集中或离散的程度:方差越小,表明个体与均值 $\mu$ 的距离越近,个体向 $\mu$ 集中得越好。 总体方差 $\sigma^2$ 也刻画了总体中个体的稳定或波动的程度: 方差越小,表明个体越整齐,波动越小。 类似地,若从总体中随机抽样,获得 $n$ 个观测数据 $x_1, x_2, \cdots, x_n$ ,用 $\bar{x}$ 表示这 $n$ 个数据的均值,则称 $$ s^2=\frac{1}{n}\left[\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdots+\left(x_n-\bar{x}\right)^2\right] $$ 为这 $n$ 个数据的样本方差,也简称为方差. 样本方差 $s^2$ 刻画了样本数据相对于样本均值 $\bar{x}$ 集中或离散的程度. 样本方差依赖于样本的选取,带有随机性.如果样本是随机抽取的,当样本容量较大时,样本方差是总体方差的估计. 下面,我们由获得的样本数据,并利用方差来分析甲,乙射击成绩的波动大小: $$ \begin{aligned} & s_{\text {甲 }}^2=\frac{1}{10}\left[(7-8)^2+(8-8)^2+\cdots+(9-8)^2\right]=0.6, \\ & s_乙^2=\frac{1}{10}\left[(6-8)^2+(8-8)^2+\cdots+(9-8)^2\right]=1.4 . \end{aligned} $$ 由于 $s_{\text {甲 }}^2<s_乙^2$ ,可以估计甲的射击成绩比乙更稳定,故可推荐甲参加运动会. `例` 某省农科院在某地区选择了自然条件相同的两个试验区,用相同的管理技术试种甲,乙两种水稻各 100 亩.待水稻成熟,分别从甲,乙的 100 亩水稻中随机抽取 10 亩水稻,它们的亩产量如下表所示.就产量这一指标来讲,试确定哪个品种的水稻在该地区更适合推广.  分析 为选择合适的水稻品种,从产量这一指标而言,可以从样本的平均亩产量与产量的稳定性两个角度来衡量。 解 使用计算器可算出甲,乙品种各 10 亩抽样水稻的平均亩产量为 $$ \bar{x}_{\text {甲 }}=885 kg, \quad \bar{x}_乙=885.1 kg . $$ 由于这 10 亩水稻是随机抽取的,而这两种水稻的样本均值相差很小,从而我们可以估计大面积种植这两种水稻后的平均亩产量也应相差很小。 借助计算器计算方差可得 $$ s_{\text {甲 }}^2=129.6, \quad s_乙^2=59.09 . $$ 由于 $s_{\text {乙 }}^2<s_{\text {甲 }}^2$ ,因此我们可以估计乙种水稻的亩产量要比甲种水稻稳定.综合以上两种因素,我们可以得出:在该地区,乙种水稻更有推广价值. `例`某校高一年级有男生 180 人,女生 120 人.某统计小组为调查本年级学生身高情况,采取分层抽样的方法从总体中随机抽取样本,其中男生抽取 18 人,女生抽取 12 人.将男生组看作样本 $A_1$ ,计算出样本 $A_1$ 的平均身高为 173.5 cm ,方差为 17 ;将女生组看作样本 $A_2$ ,计算出样本 $A_2$ 的平均身高为 164.0 cm ,方差为 30 .试根据以上数据计算由 $A_1, A_2$ 组成的样本 $A$ 的方差,并估计总体方差. 分析 按分层抽样获取的样本分为两层:男生组与女生组.现已知男生组样本和女生组样本的均值与方差,借助方差的定义可计算出分层抽样样本的方差,进而估计总体方差。 解 设从男生中抽出的样本个体为 $y_1, y_2, \cdots, y_{18}$ ,均值记为 $\bar{y}$ ,方差记为 $s_1^2$ ;从女生中抽取的样本个体为 $z_1, z_2, \cdots, z_{12}$ ,均值记为 $\bar{z}$ ,方差记为 $s_2^2$ . 先计算总样本均值 $\bar{x}$ : $$ \begin{aligned} \bar{x} & =\frac{y_1+y_2+\cdots+y_{18}+z_1+z_2+\cdots+z_{12}}{18+12} \\ & =\frac{18 \bar{y}+12 \bar{z}}{18+12} \\ & =\frac{18 \times 173.5+12 \times 164.0}{30} \\ & =169.7(cm) ; \end{aligned} $$ 再计算总样本方差: $$ \begin{aligned} s^2= & \frac{1}{30}\left[\left(y_1-\bar{x}\right)^2+\left(y_2-\bar{x}\right)^2+\cdots+\left(y_{18}-\bar{x}\right)^2+\right. \\ & \left.\left(z_1-\bar{x}\right)^2+\left(z_2-\bar{x}\right)^2+\cdots+\left(z_{12}-\bar{x}\right)^2\right] \\ = & \frac{1}{30}\left\{\sum_{i=1}^{18}\left[\left(y_i-\bar{y}\right)+(\bar{y}-\bar{x})\right]^2+\right. \\ & \left.\sum_{j=1}^{12}\left[\left(z_j-\bar{z}\right)+(\bar{z}-\bar{x})\right]^2\right\} \\ = & \frac{1}{30}\left\{\left[\sum_{i=1}^{18}\left(y_i-\bar{y}\right)^2+\sum_{i=1}^{18}(\bar{y}-\bar{x})^2\right]+\right. \\ & {\left.\left[\sum_{j=1}^{12}\left(z_j-\bar{z}\right)^2+\sum_{j=1}^{12}(\bar{z}-\bar{x})^2\right]\right\} } \\ = & \frac{1}{30}\left[18 s_1^2+18(\bar{y}-\bar{x})^2+12 s_2^2+12(\bar{z}-\bar{x})^2\right] \\ = & \frac{1}{30}\left(18 \times 17+18 \times 3.8^2+12 \times 30+12 \times 5.7^2\right) \\ = & 43.86 . \end{aligned} $$ 于是可以估计该校高一年级学生身高的方差为 43.86 . 分层抽样在获得总体方差估计的同时,也得到各层的方差估计. 从例 6 可知,如果将总体分为两层,第一,二层的样本量分别为 $n_1, n_2$ ,样本均值分别为 $\bar{x}_1, \bar{x}_2$ ,样本方差分别为 $s_1^2, s_2^2$ ,则全部样本的样本容量,样本均值和样本方差分别为 $$ \begin{aligned} & n=n_1+n_2 \\ & \bar{x}=\frac{1}{n}\left(n_1 \bar{x}_1+n_2 \bar{x}_2\right), \\ & s^2=\frac{1}{n}\left\{n_1\left[s_1^2+\left(\bar{x}_1-\bar{x}\right)^2\right]+n_2\left[s_2^2+\left(\bar{x}_2-\bar{x}\right)^2\right]\right\} . \end{aligned} $$ 如果将总体分为 $k$ 层,第 $j$ 层抽取的样本为 $x_{j 1}, x_{j 2}, \cdots, x_{j n_j}$ ,第 $j$ 层的样本容量为 $n_j$ ,样本均值为 $\bar{x}_j$ ,样本方差为 $s_j^2, j=1,2, \cdots, k$ .记 $\sum_{j=1}^k n_j=n$ ,你能计算出全部样本的均值和方差吗? ## 标准差 方差充分利用所有数据,并且仅用一个数值来刻画一组数据的离散程度,但方差也有局限性,如方差的单位是观测数据的单位的平方,而刻画离散程度的一种理想度量应当具有与观测数据相同的单位。解决这一局限性的方法就是引入标准差。 标准差是方差的算术平方根。 如果 $\sigma^2$ 是总体方差,则称 $\sigma=\sqrt{\sigma^2}$ 是总体标准差; 如果 $s^2$ 是样本方差,则称 $s=\sqrt{s^2}$ 是样本标准差. 给定数据 $x_1, x_2, \cdots, x_n$ 和均值 $\bar{x}$ .由方差计算公式知道,样本标准差 $s$ 可以用下面的公式计算: $$ s=\sqrt{\frac{1}{n}\left[\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdots+\left(x_n-\bar{x}\right)^2\right]} . $$ 显然,在刻画观测数据的离散程度上,方差与标准差是一样的.在对许多实际问题进行分析时,人们更多地使用标准差。 样本标准差依赖于样本的选取,也带有随机性.样本方差是总体方差的估计.样本标准差是总体标准差的估计。 例 7 一台机床生产一种直径为 40 mm 的零件,在正常生产时,零件的直径的标准差不应超过 0.1 .如果超过 0.1 ,则机床应检修调整。 下表是某日 8:30-9:30 及 $10: 00-11: 00$ 两个时段中各随机抽取 10 个零件量出的直径的数值(单位:mm):  试判断在这两个时段内机床生产是否正常. 分析 判断机床生产是否正常可以从样本的均值与标准差两个角度来衡量. 解 设 8:30-9:30 为甲时段, $10: 00-11: 00$ 为乙时段. 用计算器计算可得 $$ \begin{gathered} \bar{x}_{\text {甲 }}=40, \bar{x}_{\text {乙 }}=40 . \\ s_{\text {甲 }} \approx 0.173, s_{\text {乙 }} \approx 0.089 . \end{gathered} $$ 从样本均值看,两个时段生产的零件尺寸差异性不大;从样本标准差看,$s$ 甲 $>$ $0.1, s_乙<0.1$ ,这说明甲时段( $8: 30-9: 30$ )机床生产不正常,而经过调试,机床在乙时段( $10: 00-11: 00$ )生产正常:生产的零件稳定程度高,且在质量控制范围内. 在工业生产中,平均数和标准差是监测产品质量的重要指标.若样本的平均数或标准差超过了规定的界限,说明这批产品的质量可能距生产要求有较大偏离,应检查并找出原因,及时解决问题.
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
平均数、中位数与众数
下一篇:
用频率分布直方图估计总体分布
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。