科数网
数学题库
数学试卷
数学组卷
在线学习
电子教材
科数
试题
试卷
学习
教材
VIP
你好
游客,
登录
注册
在线学习
概率论与数理统计
附录2:k阶矩是什么意思
最后
更新:
2024-12-10 21:29
●
参与者
查看:
182
次
纠错
分享
参与项目
词条搜索
附录2:k阶矩是什么意思
### 引言 在介绍$k$截距之前,我们先引用前面说过的[泰勒公式](https://kb.kmath.cn/kbase/detail.aspx?id=304) 的意义。泰勒展开式本质是多项式逼近,也就是说,我们可以使用低次到高次的多项式累加来**拟合**函数 $f(x)$ 在某个点邻域的函数值。比如在$x$趋于零时,用$x$拟合$sin x$。 当时给出一个结论:**高阶导数越多,拟合的曲线越好**。我们把这种思想搬到$k$阶矩上来,有兴趣的同学请点击 [此处](https://kb.kmath.cn/kbase/detail.aspx?id=304) ## 如何理解$k$阶矩的意思? 先看其定义: 设 $X$ 为随机变量, $k$ 为正整数. 如果以下的数学期望都存在, 则称 $$ \boxed{ \mu_k=E\left(X^k\right) ...(1) } $$ 为 $X$ 的 $k$ 阶**原点矩**. 称 $$ \boxed{ \nu_k=E(X-E(X))^k ...(2) } $$ 为 $X$ 的 $k$ 阶**中心矩**。 整个定义有点抽象,我们一层层分析,首先定义说,$k$为正整数,也就是k可以取1,2,3,4,5... ,那我们就先取$k=1$和$k=2$带入看看 ## 1阶矩和2阶矩 把$k=1$ 带入(1) 可以得到 $u_1=E(X)$ ,这不就是**期望**吗? 把$k=2$ 带入(2) 中心矩 $\nu_2=E(X-E(X))^2$ **方差**吗? 现在举一个例子:一个学校有1000名男生,我要估算整个学校里男生的平均身高,毫无疑问,这些身高肯定有一个真实值,假设全校男生平均真实身高为 $X=170cm$(我们现在不知道), 现在我随机从班里抽取10个男生,然后统计这10个男生的平均身高为$\bar{X}=168cm$,此时我宣布:全校男生身高是$168cm$,这可以认为为1阶原点矩。 但是,在抽取样本时,我们会有一个直观的感受,就是抽取这10个男生,最好身高都差不多,如果抽取的这10个男生,9个差不多高,另外一个非常高或者非常矮,那么这有可能使得抽的**样本失真**,此时就需要从另外一个**维度**:方差来分析这些数据,**方程反映数据的波动程度**。 到这里你大概就理解1阶矩,2阶矩,3阶矩...n截距的作用了,这个就类似泰勒展开式,比如 $$ \mathrm{e}^x=1+x+\frac{1}{2!} x^2+\cdots+\frac{1}{n!} x^n+o\left(x^n\right) $$ 我要求$e^{0.01}$, ①如果你想提高精度,你可以取 $e^{0.01} =1 $ ②如果你再想提高精度,你可以取 $\mathrm{e}^x=1+x+\frac{1}{2!}$ ③如果你再想提高精度,你可以取 $\mathrm{e}^x=1+x+\frac{1}{2!} x^2+\cdots+\frac{1}{n!}$ 具体取到那一阶,由实际情况决定。k阶矩类似,通过1阶,2阶,3阶,4阶等,让估计值越来越接近真实值。 > 注意:当说“中心矩”时,既然有**中心**两字,那以谁为中心(比如坐标轴通常以0为中心)?那答案就是 $E(X)$为中心,也就是中心矩是以期望为中心。因此,一阶原点矩的中心矩为0. ## 3阶矩 和 4 截距 ### 3阶矩 $k$阶矩基 本上最多使用到3阶和4阶, 设随机变量 $X$ 的前三阶矩存在, 则比值 $$ \beta_s=\frac{\nu_3}{\nu_2^{3 / 2}}=\frac{E(X-E(X))^3}{[\operatorname{Var}(X)]^{3 / 2}} $$ 称为 $X$ (或分布) 的偏度系数。简称偏度. 当 $\beta_s>0$ 时, 称该分布为正偏, 又称右偏; 当 $\beta_s<$ 0 时,称该分布为负偏, 又称左偏. 偏度 $\beta_{ s }$ 是描述**分布偏离对称性程度的**一个特征数。 ![图片](/uploads/2024-11/ad94e0.jpg) ### 4 阶矩 设随机变量 $X$ 的前四阶矩存在, 则 $$ \beta_k=\frac{\nu_4}{\nu_2^2}-3=\frac{E(X-E(X))^4}{[\operatorname{Var}(X)]^2}-3 $$ 称为 $X$ (或分布) 的峰度系数,简称峰度) 峰度是描述分布尖蛸程度和(或)尾部粗细的一个特征数。 ![图片](/uploads/2024-11/76fc47.jpg) > 因此,通过 1阶矩、2阶矩、3阶矩、4阶矩,参考上面引言介绍的泰勒公式,我们有理由相信,如果一直到$k$阶参数,可以很好的控制真实值和样本值之间的误差。这就是$k$阶矩的作用。 **一阶原点矩**,即均值,也是大众理解的那个「平均」——衡量数据的平均水平。 **二阶中心距**,方差,衡量数据的离散/集中程度,也就是数据的「平均程度」。(这个表述不是很好,请大家脑补体会一下我的真实意思……) **二阶原点矩**, ,衡量数据被「移动至平均位置」需要的「平均能量」。相当于物理中的惯性矩。 **三阶中心矩**,偏度,衡量偏离中心的点的位置情况,也就是偏离中心的点的平均水平(正负、大小)。放到分布图像上看,就是均值和中位数之间的距离,也就是数据分布的对称性——对称分布偏度为零。 **四阶中心矩**,峰度,俗称「方差的方差」,衡量偏离中心的点的密集程度。是俗话说的「尖峰厚尾」的理论基础。 ### 再来理解 重尾程度,或者说概率P(x) 是否随着值 x 的增大急速地减少。 在研究一个分布的时候,我们很多时候可能会对极大值特别的敏感。比如说,我是一个小型公司的老板,收到了一份这样的风险分析, 0.1 的概率赔 10 万, 0.05 的概率赔 20 万,等等。这些数字我大概都是一扫而过,因为这些钱我完全赔的起。但假如说我看到了一个 0.001 的概率赔 1000 万,我估计眼睛就瞪圆了。虽然说 0.001 不算是一个大的概率,但是赔这么多钱我们公司可能就破产了。 所以说,对于特别大的值,光是概率小是不够的,我们可能需要概率非常非常小。由于画图时这些极大值会出现在图像的边界,我们称这些极大值为分布的尾部。 比如,下图是我们熟悉的高斯分布。尾部就是出现在图像的边缘。但是提到尾部,我建议不要想到 4,5个标准开外,而是去想象几十个甚至更多标准开外 ![图片](/uploads/2024-11/7a1009.jpg){width=300px} > 注意1:虽然理论上可有k阶,k可以无限制取值,但是在实际使用时,超过4阶的基本上就不在使用。
上一篇:
附录1:置信区间与上a分位数
下一篇:
附表:正态/t/F等分布表
本文对您是否有用?
有用
(
0
)
无用
(
0
)
初中数学
高中数学
高中物理
高等数学
线性代数
概率论与数理统计
复变函数
离散数学
实变函数
数论
群论
纠错
题库
高考
考研
关于
下载
科数网是专业专业的数学网站。