在线学习
重点科目
初中数学
高中数学
高等数学
线性代数
概率统计
高中物理
数学公式
主要科目
复变函数
离散数学
数学分析
实变函数
群论
数论
未整理科目
近世代数
数值分析
常微分方程
偏微分方程
大学物理
射影几何
微分几何
泛函分析
拓扑学
数学物理
趣味数学
科数网
首页
教材
高考区
考研区
VIP
科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
高中物理
复变函数
离散数学
你好
游客,
登录
注册
在线学习
概率论与数理统计
附录2:k阶矩是什么意思
最后
更新:
2024-12-10 21:29
查看:
280
次
反馈
刷题
附录2:k阶矩是什么意思
### 引言 在介绍$k$截距之前,我们先引用前面说过的[泰勒公式](https://kb.kmath.cn/kbase/detail.aspx?id=304) 的意义。泰勒展开式本质是多项式逼近,也就是说,我们可以使用低次到高次的多项式累加来**拟合**函数 $f(x)$ 在某个点邻域的函数值。比如在$x$趋于零时,用$x$拟合$sin x$。 当时给出一个结论:**高阶导数越多,拟合的曲线越好**。我们把这种思想搬到$k$阶矩上来,有兴趣的同学请点击 [此处](https://kb.kmath.cn/kbase/detail.aspx?id=304) ## 如何理解$k$阶矩的意思? 先看其定义: 设 $X$ 为随机变量, $k$ 为正整数. 如果以下的数学期望都存在, 则称 $$ \boxed{ \mu_k=E\left(X^k\right) ...(1) } $$ 为 $X$ 的 $k$ 阶**原点矩**. 称 $$ \boxed{ \nu_k=E(X-E(X))^k ...(2) } $$ 为 $X$ 的 $k$ 阶**中心矩**。 整个定义有点抽象,我们一层层分析,首先定义说,$k$为正整数,也就是k可以取1,2,3,4,5... ,那我们就先取$k=1$和$k=2$带入看看 ## 1阶矩和2阶矩 把$k=1$ 带入(1) 可以得到 $u_1=E(X)$ ,这不就是**期望**吗? 把$k=2$ 带入(2) 中心矩 $\nu_2=E(X-E(X))^2$ **方差**吗? 现在举一个例子:一个学校有1000名男生,我要估算整个学校里男生的平均身高,毫无疑问,这些身高肯定有一个真实值,假设全校男生平均真实身高为 $X=170cm$(我们现在不知道), 现在我随机从班里抽取10个男生,然后统计这10个男生的平均身高为$\bar{X}=168cm$,此时我宣布:全校男生身高是$168cm$,这可以认为为1阶原点矩。 但是,在抽取样本时,我们会有一个直观的感受,就是抽取这10个男生,最好身高都差不多,如果抽取的这10个男生,9个差不多高,另外一个非常高或者非常矮,那么这有可能使得抽的**样本失真**,此时就需要从另外一个**维度**:方差来分析这些数据,**方程反映数据的波动程度**。 到这里你大概就理解1阶矩,2阶矩,3阶矩...n截距的作用了,这个就类似泰勒展开式,比如 $$ \mathrm{e}^x=1+x+\frac{1}{2!} x^2+\cdots+\frac{1}{n!} x^n+o\left(x^n\right) $$ 我要求$e^{0.01}$, ①如果你想提高精度,你可以取 $e^{0.01} =1 $ ②如果你再想提高精度,你可以取 $\mathrm{e}^x=1+x+\frac{1}{2!}$ ③如果你再想提高精度,你可以取 $\mathrm{e}^x=1+x+\frac{1}{2!} x^2+\cdots+\frac{1}{n!}$ 具体取到那一阶,由实际情况决定。k阶矩类似,通过1阶,2阶,3阶,4阶等,让估计值越来越接近真实值。 > 注意:当说“中心矩”时,既然有**中心**两字,那以谁为中心(比如坐标轴通常以0为中心)?那答案就是 $E(X)$为中心,也就是中心矩是以期望为中心。因此,一阶原点矩的中心矩为0. ## 3阶矩 和 4 截距 ### 3阶矩 $k$阶矩基 本上最多使用到3阶和4阶, 设随机变量 $X$ 的前三阶矩存在, 则比值 $$ \beta_s=\frac{\nu_3}{\nu_2^{3 / 2}}=\frac{E(X-E(X))^3}{[\operatorname{Var}(X)]^{3 / 2}} $$ 称为 $X$ (或分布) 的偏度系数。简称偏度. 当 $\beta_s>0$ 时, 称该分布为正偏, 又称右偏; 当 $\beta_s<$ 0 时,称该分布为负偏, 又称左偏. 偏度 $\beta_{ s }$ 是描述**分布偏离对称性程度的**一个特征数。  ### 4 阶矩 设随机变量 $X$ 的前四阶矩存在, 则 $$ \beta_k=\frac{\nu_4}{\nu_2^2}-3=\frac{E(X-E(X))^4}{[\operatorname{Var}(X)]^2}-3 $$ 称为 $X$ (或分布) 的峰度系数,简称峰度) 峰度是描述分布尖蛸程度和(或)尾部粗细的一个特征数。  > 因此,通过 1阶矩、2阶矩、3阶矩、4阶矩,参考上面引言介绍的泰勒公式,我们有理由相信,如果一直到$k$阶参数,可以很好的控制真实值和样本值之间的误差。这就是$k$阶矩的作用。 **一阶原点矩**,即均值,也是大众理解的那个「平均」——衡量数据的平均水平。 **二阶中心距**,方差,衡量数据的离散/集中程度,也就是数据的「平均程度」。(这个表述不是很好,请大家脑补体会一下我的真实意思……) **二阶原点矩**, ,衡量数据被「移动至平均位置」需要的「平均能量」。相当于物理中的惯性矩。 **三阶中心矩**,偏度,衡量偏离中心的点的位置情况,也就是偏离中心的点的平均水平(正负、大小)。放到分布图像上看,就是均值和中位数之间的距离,也就是数据分布的对称性——对称分布偏度为零。 **四阶中心矩**,峰度,俗称「方差的方差」,衡量偏离中心的点的密集程度。是俗话说的「尖峰厚尾」的理论基础。 ### 再来理解 重尾程度,或者说概率P(x) 是否随着值 x 的增大急速地减少。 在研究一个分布的时候,我们很多时候可能会对极大值特别的敏感。比如说,我是一个小型公司的老板,收到了一份这样的风险分析, 0.1 的概率赔 10 万, 0.05 的概率赔 20 万,等等。这些数字我大概都是一扫而过,因为这些钱我完全赔的起。但假如说我看到了一个 0.001 的概率赔 1000 万,我估计眼睛就瞪圆了。虽然说 0.001 不算是一个大的概率,但是赔这么多钱我们公司可能就破产了。 所以说,对于特别大的值,光是概率小是不够的,我们可能需要概率非常非常小。由于画图时这些极大值会出现在图像的边界,我们称这些极大值为分布的尾部。 比如,下图是我们熟悉的高斯分布。尾部就是出现在图像的边缘。但是提到尾部,我建议不要想到 4,5个标准开外,而是去想象几十个甚至更多标准开外 {width=300px} > 注意1:虽然理论上可有k阶,k可以无限制取值,但是在实际使用时,超过4阶的基本上就不在使用。
开VIP会员
非会员每天6篇,会员每天16篇,VIP会员无限制访问
题库训练
自我测评
投稿
上一篇:
附录1:置信区间与上a分位数
下一篇:
附录3:用Excel生成正态函数
本文对您是否有用?
有用
(
0
)
无用
(
0
)
纠错
高考
考研
关于
赞助
公式
科数网是专业专业的数学网站。