在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
题库
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
实变函数
数论
群论
你好
游客,
登录
注册
在线学习
高中数学
第十二章:排列组合与概率统计
平均数、中位数与众数
最后
更新:
2025-02-12 17:10
查看:
288
次
反馈
刷题
平均数、中位数与众数
## 平均数 平均数也称为均值,在统计学中具有重要的地位,是刻画一组数据集中趋势最主要的指标.若样本容量为 $n$ ,第 $i$ 个个体是 $x_i$ ,则样本平均数 $$ \boxed{ \bar{x}=\frac{x_1+x_2+\cdots+x_n}{n} } $$ 总体均值是总体的指标,是一个固定的量.而样本均值依赖于样本的选择,不同的样本通常有不同的样本均值.所以我们说样本均值带有随机性. 实践和理论都表明:在随机抽样的前提下,当样本容量增加时,样本均值 $\bar{x}$ 会向总体均值 $\mu$ 接近.于是,称 $\bar{x}$ 为 $\mu$ 的估计. `例`一种产品需要人工组装,现有 $A, B$ 两种可供选择的组装方法.为检验哪种方法生产效率更高,现随机抽取 29 名工人并随机分成两组:第一组 14 人,采用方法 $A$ 组装;第二组 15 人,采用方法 $B$ 组装。让两组工人在相同的时间内组装产品,得到产品数量(单位:个)如下表所示:  哪种组装方法的效率更高? 分析 平均数刻画了一组数据的平均水平.当我们要比较组装方法在相同时间内的效率时,可以分别计算用不同组装方法得到的产品数量的平均数,再通过平均数来进行比较。 解 设两组工人采用方法 $A, B$ 组装的平均产量分别为 $\bar{x}_A, \bar{x}_B$ ,则 $$ \begin{aligned} & \bar{x}_A=\frac{126+129+129+\cdots+125}{14}=128(\text { 个 }), \\ & \bar{x}_B=\frac{129+125+126+\cdots+125}{15}=126(\text { 个). } \end{aligned} $$ 由于在相同时间内,方法 $A$ 的平均产量高于方法 $B$ 的平均产量,所以我们可以认为方法 $A$ 的效率更高. `例` 表6-4 是某地统计局调查 100 个家庭月均用水量(单位:$t$ )的频率分布表,试估计该地家庭的月均用水量.   分析 要确定这 100 个家庭的月均用水量,就必须计算其总用水量.由于每组中的个体月用水量只是一个范围,因此可用各组区间的组中值(位于各组中央的值)近似地表示。 解(方法一) 100 个家庭的月总用水量约为 $$ 0.25 \times 4+0.75 \times 8+1.25 \times 15+1.75 \times 22+2.25 \times 25+2.75 \times 14+3.25 \times 6+ $$ 3. $75 \times 4+4.25 \times 2=202( t )$ , $$ 202 \div 100=2.02(t) . $$ 因此估计该地家庭的月均用水量为 2.02 t 。 (方法二)求组中值与对应频率之积的和. $$ \begin{aligned} \bar{x}= & 0.25 \times 0.04+0.75 \times 0.08+1.25 \times 0.15+1.75 \times \\ & 0.22+2.25 \times 0.25+2.75 \times 0.14+3.25 \times 0.06+ \\ & 3.75 \times 0.04+4.25 \times 0.02 \\ = & 2.02(t), \end{aligned} $$ 因此估计该地家庭的月均用水量为 2.02 t 。 > 例2 在计算平均数时,是用各组的组中值代表各组的实际数据.便用组中值进行计算的前提是假定各组数据在组内的分布是均匀的. 一般地,若取值为 $x_1, x_2, \cdots, x_n$ 的频率分别为 $f_1$ , $f_2, \cdots, f_n$ ,则其平均数为 $x_1 f_1+x_2 f_2+\cdots+x_n f_n$ . `例`某市进行家庭年收人调查时,分别对城镇家庭和农村家庭进行调查.在全部城镇的 85679 户中无放回地随机抽取了 350 户,在全部农村的 275692 户中无放回地随机抽取了 360 户。调查结果为:城镇家庭年平均收人是 35612 元,农村家庭年平均收人是 5623 元.试估计该市家庭年平均收入。 解 统计调查使用了分层抽样。设总体 $A$ 表示该市所有家庭的年收人,总体 $A$分为两层:第一层 $A_1$ 对应所有城镇家庭的年收人,第二层 $A_2$ 对应所有农村家庭的年收人。 用 $x_1$ 表示来自总体 $A_1$ 的样本均值,用 $x_2$ 表示来自总体 $A_2$ 的样本均值,则 $x_1=$ 35612 , $\bar{x}_2=5623$ . $A_1$ 在 $A$ 中所占的比例是 $$ W_1=\frac{85679}{85679+275692} \approx 0.2371 $$ $A_2$ 在 $A$ 中所占的比例是 $$ W_2=\frac{275692}{85679+275692} \approx 0.7629 . $$ 所以 $A$ 的总体均值的估计是 $$ \begin{aligned} X & =W_1 \bar{x}_1+W_2 \bar{x}_2 \\ & =0.2371 \times 35612+0.7629 \times 5623 \\ & \approx 12733 \end{aligned} $$ 即该市家庭年平均收人的估计是 12733 元. 在分层抽样中,用 $N$ 表示总体 $A$ 的个体总数,若将总体 $A$ 分为 $L$ 层,用 $N_i$ 表示第 $i$ 层 $(i=1,2, \cdots, L)$ 的个体总数,则有 $$ N=N_1+N_2+\cdots+N_L $$ 我们称 $$ W_i=\frac{N_i}{N}(i=1,2, \cdots, L) $$ 为第 $i$ 层的层权. 对 $i=1,2, \cdots, L$ ,用 $\bar{x}_i$ 表示从第 $i$ 层抽出样本的均值.我们称 $$ \bar{X}=W_1 \bar{x}_1+W_2 \bar{x}_2+\cdots+W_L \bar{x}_L $$ 是总体均值 $\mu$ 的简单估计. 分层抽样在获得总体均值估计的同时,也得到各层的均值估计.在例 3 中,不但得到了 $A$ 的均值估计,还得到了 $A_1$ 和 $A_2$ 的均值估计. ## 众数,中位数 1.众数 我们称观测数据中出现次数最多的数是众数,用 $M_o$ 表示. 按照这个定义,在抽样调查中,样本中出现次数最多的数是样本的众数.如果观测数据中每个数出现的次数都相同,它就没有众数.一组数据可以有两个或多个众数。 众数作为一组数据的代表,能反映一组数据的集中趋势。 例如,某鞋店店主统计了一个月内销售各种尺码男鞋的数据,如下表所示:  从统计表可以看出,一个月内销售量最多的男鞋尺码是 25 cm ,即众数 $M_o=25$ ,这组数据的平均数 $\bar{x}=24.97$ ,此时,用平均数作为这组数据的代表值是没有实际意义的,而用众数作为顾客对男鞋所需尺寸的集中趋势的体现既便捷又符合实际。 众数是一个位置代表值,它不受数据组中极端值的影响。 2.中位数 将一组观测数据按从小到大的顺序排列后,我们称处于中间位置的数是中位数,用 $M_e$ 表示。 具体而言,当数据的个数是奇数时,处于中间位置的数就是中位数;当数据的个数是偶数时,则中间两个数的平均数即为中位数。 由中位数的定义可知,所研究的数据中有一半小于或等于中位数,一半大于或等于中位数。 中位数的作用与算术平均数有些相近,可以用来表示总体的"中等"水平,因此中位数作为一组数据的代表,也能反映一组数据的集中趋势。 例如,某公司共有 10 名职工,他们的年薪分别是 1.5 万元, 2 万元, 2 万元, 2.9 万元, 3.6 万元, 3.8 万元, 4.6 万元, 5 万元, 6 万元, 8 万元,则 $M_e=$ $\frac{3.6+3.8}{2}=3.7$(万元).年薪的中位数 3.7 万元表示该公司的中等工资水平. 中位数不受数据组中极端值的影响,从而具有较好的稳定性。由于中位数是一种位置的平均数,因此世界许多国家或地区在分析人口统计数据时,常将年龄中位数作为分析人口年龄分布状况和集中趋势的重要指标. 3.众数,中位数和平均数的比较 众数,中位数和平均数均能反映数据的集中趋势,而它们作为一组数据的代表又具有不同的特点.我们应当根据问题的需要,选择合适的统计量来描述数据的集中趋势。 `例` 某公司全体职工的月工资如下:  (1)试求出该公司月工资数据中的众数,中位数和平均数. (2)你认为用平均数,中位数或众数中的哪一个更能反映该公司的工资水平? (3)对于职工月工资数据的平均数,中位数和众数,你认为该公司总经理,普通员工及应聘者将分别关注哪一个?说说你的理由. 解(1)在上述 80 个数据中, 2000 出现了 22 次,出现的次数最多,因此这组数据的众数是 2000 。 把这 80 个数据按从小到大的顺序排列后,位于中间的数是 2000,2500 ,因此这组数据的中位数是 $\frac{2000+2500}{2}=2250$ . 这组数据的平均数为 $$ \begin{aligned} \bar{x} & =\frac{18000+12000 \times 2+8000 \times 3+\cdots+1200 \times 6}{80} \\ & =\frac{249200}{80}=3115 \end{aligned} $$ 我们把这组数据的众数,中位数,平均数表示在图 6.4-1 中.  (2)由于大多数员工的月工资达不到平均数 3115 ,显然用平均数作为该公司员工月工资的代表值并不合适;众数 2000 及中位数 2250 在一定程度上代表了大多数人的工资水平,较能反映月工资水平的实际情况。 (3)公司总经理最关心的是月工资的总额,所以他关注的是平均数; 普通员工关注的是自己的收人在本公司职工群体中的位置,中位数能帮助职工了解自己的工资收人处于什么样的水平; 应聘者最想知道公司发给大多数员工的工资数额,这也是一般应聘者将会拿到的工资,因此应聘者关注的是该公司月工资的众数。 平均数,中位数和众数都是一组数据的代表,它们从不同侧面反映了数据的集中趋势.平均数的计算要用到所有的数据,它能够充分利用数据提供的信息,因此在现实生活中应用较广,但它容易受极端值的影响;中位数对极端值不敏感,但没有利用数据中的所有信息;众数只能反映一组数据中出现次数最多的数据,也没有利用数据中的所有信息.
刷题
做题,是检验是否掌握数学的唯一真理
上一篇:
频率直方分布图
下一篇:
极差、方差与标准差
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。