科数网
首页
题库
试卷
学习
VIP
你好
游客,
登录
注册
在线学习
概率论与数理统计
第二篇 一维随机变量及其分布
离散型(泊松分布)
最后
更新:
2025-06-06 10:11
查看:
618
次
反馈
同步训练
离散型(泊松分布)
> 抽查一个产品,质量可能合格或者不合格,这是[**两点分布**](https://kb.kmath.cn/kbase/detail.aspx?id=959),为了检查一批产品质量是否合格,我们可以抽查$n$个产品(每个产品都有合格或者不合格两种可能),这是[**二项分布**](https://kb.kmath.cn/kbase/detail.aspx?id=526) 。但是实际情况更好复杂。对于一个产品,不仅仅只有合格或者不合格两个结果,有时候可能有更多的结果。比如抽查产品的结果使用“正品,次品,废品”表示这是[**多项分布**](https://kb.kmath.cn/kbase/detail.aspx?id=2549), 在抽查产品里(放回抽样),我们不断的抽取直到首次抽到正品的概率这是[**几何分布**](https://kb.kmath.cn/kbase/detail.aspx?id=529), 在抽查的产品里,我们抽取一个是不合格的,抽取一个是不合格的,一共抽取了$r$次,第$r+1$次才出现合格的,这种分布就是[**负二项分布**](https://kb.kmath.cn/kbase/detail.aspx?id=1569)。 如果不放回抽样就是[**超几何分布**](https://kb.kmath.cn/kbase/detail.aspx?id=528), 下面介绍的是泊松分布。特别的,当样本量很大时,二项分布可以用泊松近似,他常被应用于研究稀有事件。比如某种疾病的发病率为0.001,现在单位有5000人,问患这种疾病不超过5人的概率?虽然可以用二项分布计算,但是计算量很大,此时就可以使用泊松分布近似计算,详见[泊松定理](https://kb.kmath.cn/kbase/detail.aspx?id=1568)。 > 注:在概率论里,和连续分布相关的基本上都和“时间”相关,因为时间是连续的。泊松过程的三个重要分布在概率论和随机过程理论中经常出现,它们分别是:**[泊松分布](https://kb.kmath.cn/kbase/detail.aspx?id=527)**(Poisson Distribution):描述固定时间内发生事件的数量。**[指数分布](https://kb.kmath.cn/kbase/detail.aspx?id=531)**(Exponential Distribution):描述事件间隔时间的分布。**[伽马分布](https://kb.kmath.cn/kbase/detail.aspx?id=960)**(Gamma Distribution):描述多个事件发生时间的分布。点击他们的分布链接可以了解三者之间的区别和联系。 到目前为止,我们前面研究的离散分布都与伯努利分布有关.接下来的例子也与伯努利分布有关,但关联并不是那么密切。虽然我们可以定义服从泊松分布的随机变量,但它其实可以被定义为参数为 $n$ 和 $p$ 的二项分布的极限,其中 $n \rightarrow \infty$ 且 $n p \rightarrow \lambda$ . 你可以把泊松分布看成一个全新的分布。 ## 为什么要引入泊松分布? 答案就一句话:**预测未来发生的事件数!** 更准确地说, **在固定的时间间隔内,预测给定事件数量的可能性。** 例如:如果您曾经作为商业运营人员,则可以将 "售卖" 作为事件的具体定义,例如,某个顾客从商店购买某物,"购买"事件是您最关注,而不仅仅是“浏览”而已。 还可以是其他场景: 网站的访问者人数:DAU 这个月广告获得的点击次数 轮班期间获得的电话进线数 ## 泊松分布 1837 年法国数学家(Poisson,1781—1840 年)首次提出泊松分布. 设随机变量 $X$ 的概率密度函数为 $$ \boxed{ P(X=k)=\frac{\lambda^k}{k !} \mathrm{e}^{-\lambda}, \quad k=0,1,2, \ldots ; \quad \lambda>0 } $$ 则称 $X$ 服从参数为 $\lambda$ 的泊松分布, 记为 $X \sim P(\lambda)$. 由无穷级数知识知: $\sum_{k=0}^{\infty} \frac{\lambda^k}{k !} \mathrm{e}^{-\lambda}=1$ 泊松分布的密度函数图 {width=500px} 初学者看到泊松密度会感觉一脸迷茫,怎么又是$k$,又是$\Lambda$,又是$e$的,且看下文慢慢介绍。 ## 应用场景 正像本文上面介绍的,每个离散型分布都有应用背景,同样泊松分布也有应用背景。即在哪些模型中,应该使用泊松分布,比如我们检测学生的身高就应该用正态分布,而不能用泊松分布。 泊松分布是常见的离散型分布,它可以用来描述**大量试验中稀有事件出现的次数** $k(k=0,1,2, \cdots)$ 的概率分布情况.例如: (1)在一天内,来某超市的顾客数; (2)某地区一年发生交通事故的次数; (3)一段时间内,某块放射性物质放射出的 $a$ 粒子数. (4)某一时段内某网站的点击量; (5)早高峰时间段内驶入高架道路的车辆数; (6)一本书上的印刷错误数。 下面将通过例子,参考第(4)种情况,看看如何使用泊松分布进行数据建模,进而了解泊松分布的意义与使用。 ## 如何构造泊松分布 以下情景可以使用泊松分布进行预测:**假设我有一个个人博客,阅读该博客的每个人都有一定的可能性,他们会喜欢并点赞。 已经知道过去每周平均有 17 个人为我的文章点赞,我想预测下周会点赞的的人数,因为每周都会得到这些数字的正反馈,也是我写作的动力,我要预测一下下周有10个人、20个人或50个人为我文章点赞的概率是多少?** 现在,假设我们对泊松分布一无所知。那我们该如何构造泊松分布呢?前面介绍过二项分布,当$n$趋于无穷大时,二项分布就可以看成泊松分布,因此,我们可以使用二项分布构造泊松分布。 上面介绍的场景是二项式分布的经典场景,因为我们正在计算成功事件(点赞)次数的概率。 二项式随机变量是在$n$重复试验中成功的次数$x$ 的概率,并且我们假设在每个试验中成功的概率$p$是恒定的。然而,在这里我们只给出了一点信息:17个点赞/周,这是一个"速率"(每周平均点赞次数,或 $x$ 的预期值),我们不知道点赞概率 $p$ ,也不知道博客访问者的人数 $n$ 。 因此,我们需要更多信息来解决此问题。 我们需要哪些额外信息才能将此概率构建为二项式问题? 我们需要两件事:成功的概率 $p$ 和试验的次数(访问者)$n$ 。 让我们从以往的数据中获取:  上表是 1 年的统计数据。共有 59 k 人阅读了我的博客。在 59k 人中,有 888 人点赞。 因此,每周阅读我的博客的人数 $(n)$ 为 $59 k / 52=1134$ 。每周点赞的人数 $(x)$ 为 $888 / 52=17$ 。 由此可以得到下面的数据: - 浏览人数/每周 $(n)=59 K / 52=1134$ - 点赞人/每周 $(X)=888 / 52=17$ - 成功概率 $(p): ~ 888 / 59 k =0.015=1.5 \%$ 使用二项式分布,下周我将获得 20 个成功(点赞的 20 个人)的概率是多少? $$ n=1134 \quad p=0.015 \quad x=20 $$ 使用 二项式的 PMF(概率质量函数): 在相同 $n$ 和 $p$ ,可以用 python 计算不同 $x$ 的伯努利 概率:  可以看到,不用泊松分布,只用二项分布就能估算出下周点击我博客人数次数的概率。 既然如此,为什么还要泊松分布呢?泊松是干什么的呢?只有泊松可以做的事情,而二项式做不到的是什么? ### 二项式分布的局限性 **a.二项式分布的二元性质** 二项式随机变量是二元制,即取值只能为0或1。在上面的示例中,我们有 17 点赞/周。这意味着每天有 $17 / 7=2.4$ 个人点赞/每天,每小时有 17 / $(7 * 24)=0.1$ 个人点赞/每小时。 如果我们使用二项式随机变量按小时( 0.1 个人/小时)对成功概率进行建模,那么这意味着大多数小时会获得0个赞,但有些小时内会恰好得到 1 个赞。进一步的,某些小时也很有可能会超过1个赞(入2、3、5等)。 二项式的问题在于它不能在单位时间内包含超过 1 个事件(在这种情况下,单位时间是 1 小时)。单位时间只能有 0 或 1 个事件。 然后,如果将 1 个小时划分为 60 分钟,并将单位时间缩短为一分钟呢?这将允许在一小时内发生多个事件(尽管每一分钟仍将包含一个或零个事件) 现在我们的问题解决了吗?有点儿难。但是,如果在那一分钟内,我们得到了多次,该怎么办?(即某人在微信上分享了您的博客文章,并且那一刻的流量激增。)然后呢?我们可以将一分钟分为几秒。然后我们的时间单位变成一秒钟,一分钟又可以包含多个事件。但是,这种二进制容器问题将在越来越小的时间单位中始终存在。 **为了真正克服这个限制,我们的想法是我们可以通过将单位时间划分为较小的单位来使二项式随机变量处理多个事件。通过使用较小的划分,我们可以使原始单位时间包含一个以下的事件。** 在数学上,这意味着 $n \rightarrow \infty$ 。由于我们假设速率(rate)是固定的,因此我们必须将 $p \rightarrow 0$ 。否则, $n ^* p$(即事件数)将爆炸。 使用该限制,单位时间现在是无限的。我们不再需要担心在同一单位时间内发生多个事件。这是泊松分布推导的基础。 **b.在二项分布中,应事先知道试验次数( n ):** 如果使用二项式,则不能仅以该速率(即 17/周)来计算成功概率。您需要"更多信息"即 $n \& p$ 才能使用二项式PMF。 另一方面,泊松分布不需要您知道 $n$ 或 $p$ 。我们假设 $n$ 无限大而 $p$ 无限小。泊松分布的唯一参数是比率 $\lambda$( $x$ 的期望值)。 **在现实生活中,仅了解比例(例如即在下午 2 点 $\sim$ 下午 4 点期间,我接了 3 个电话)比了解 $n \& p$ 要容易得多。** ## 让我们从二项式中推导泊松Poisson公式 对边二项分布公式 $$ P(X=k)=C_n^k p^k(1-p)^{n-k}, \quad k=0,1, \cdots, n, $$ 现在我们知道每个分量 $ k!,\lambda^k$ 和 $e^{-\lambda}$ 来源的意义。 最后,我们只需要证明当 $n$ 接近无穷大时,前两项 $n!/(n-k)!* n^k$ 的乘积为 1 。 这样我们就有了泊松公式! ## 维基百科对泊松分布的解释 泊松分布的事件概率 :An eve
其他版本
【随机过程及其应用】泊松过程定义
【概率论与数理统计】泊松定理(二项分布的泊松近似)
免费注册看余下 50%
非VIP会员每天15篇文章,开通VIP 无限制查看
上一篇:
离散型(超几何分布)
下一篇:
泊松定理(二项分布的泊松近似)
本文对您是否有用?
有用
(
0
)
无用
(
0
)
更多
学习首页
数学试卷
同步训练
投稿
题库下载
会议预约系统
数学公式
关于
科数网是专业专业的数学网站 版权所有 本站部分教程采用AI辅助生成,请学习时自行鉴别
如果页面无法显示请联系 18155261033 或 983506039@qq.com