日期: 2023-12-24 05:51 查看: 128 次编辑导出本文

贝叶斯Bayes公式

## 贝叶斯公式是干啥的？

贝叶斯定理源于贝叶斯生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前，人们已经能够计算“正向概率”，如“假设袋子里面有 N 个白球，M 个黑球，你伸手进去摸一把，摸出黑球的概率是多大”。而一个自然而然的问题是反过来：“如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题，就是所谓的逆向概率问题。

## 贝叶斯公式通俗解释

①在医院里，假设感冒、 肺结核、白血病、肿瘤都会引起发热，其中感冒引起发热的占比为50%, 肺结核引起发热的占比为20%，白血病引起发热的占比为20%，肿瘤引起发热的占比为10%，现在问一下：如果一个人发热了，求他是白血病的概率是多大？

②再例如，一个工厂有A,B,C三个车间生产同一个产品x的良品率分别是95%，98%，96%，某天厂长拿一个产品x进行检测，结果发现是不良品，问这个不良品是A车间产生的可能性的概率多大？

从上面例子可以看出，贝叶斯公式是由“由果寻因”。 在第一个例子里，这里的“果”就是知道病人发热了，而“因”就是他是哪种疾病引起的？ 而在第二个例子是，这里的“果”就是知道的产品是不良的，要寻找的“因”是他是哪个车间生产的。

这就是贝叶斯公式要解决的问题。

贝叶斯定理的思想出现在18世纪，但真正大规模派上用途还得等到计算机的出现。因为这个定理需要大规模的数据计算推理才能凸显效果，它在很多计算机应用领域中都大有作为，如自然语言处理，机器学习，推荐系统，图像识别，博弈论等等。

## 贝叶斯公式定义

贝叶斯公式可以写成

$$
P(A \mid B)=\frac{P(B \mid A) P(A)}{P(B)}
$$

其中P(A|B)是在 B 发生的情况下 A 发生的可能性。

在贝叶斯定理中，每个名词都有约定俗成的名称：

① $P(A)$ 是 $A$ 的先验概率，之所以称为 “先验” 是因为它不考虑任何 $B$ 方面的因素。
② $P(A \mid B)$ 是已知 $B$ 发生后 $A$ 的条件概率，也由于得自 $B$ 的取值而被称作 $A$ 的后验概率。
③ $P(B \mid A)$ 是已知 $A$ 发生后 $B$ 的条件概率，也由于得自 $A$ 的取值而被称作 $B$ 的后验概率。
④ $P(B)$ 是 $B$ 的先验概率，也作标淮化常量 (normalizing constant)。

以上面医院生病例子说明， $ P(A)$ 已知道白血病的概率， $P(B)$ 表示已经发热，
贝叶斯公式的意思是说：
在这个人已经发热的情况下他是白血病的概率等于：在已知白血病情况下导致发热的概率除以发热的概率。

**推广**
贝叶斯可以推广到N个事件，即

当 $P(B)>0$ 时，

$$
P\left(A_i \mid B\right)=\frac{P\left(A_i B\right)}{P(B)}=\frac{P\left(A_i\right) P\left(B \mid A_i\right)}{\sum_{i=1}^n P\left(A_i\right) P\left(B \mid A_i\right)} .
$$

![图片](/uploads/2023-01/image_20230103053ab2a.png)

**例1** 某地区居民的肝癌发病率为 0.0004 , 现用甲胎蛋白法进行普查. 医学研究表明, 化验结果是可能存有错误的. 已知患有肝癌的人其化验结果 $99 \%$ 呈阳性 (有病), 而没患肝癌的人其化验结果 $99.9 \%$ 呈阴性 (无病). 现某人的检查结果呈阳性, 问他真的患肝癌的概率是多少?
解 记 $B$ 为事件 “被检查者患有肝癌”, $A$ 为事件 “检查结果呈阳性”. 由题设知

$$
\begin{gathered}
P(B)=0.0004, \quad P(\bar{B})=0.9996, \\
P(A \mid B)=0.99, \quad P(A \mid \bar{B})=0.001 .
\end{gathered}
$$

我们现在的目的是求 $P(B \mid A)$. 由贝叶斯公式得

$$
P(B \mid A)=\frac{P(B) P(A \mid B)}{P(B) P(A \mid B)+P(\bar{B}) P(A \mid \bar{B})}
$$

$=\dfrac{0.0004 \times 0.99}{0.0004 \times 0.99+0.9996 \times 0.001}=0.284 . $

这表明, 在检查结果呈阳性的人中, 真患肝癌的人不到 $30 \%$. 这个结果可能会使人吃惊, 但仔细分析一下就可以理解了. 因为肝癌发病率很低, 在 10000 个人中约有 4 人, 而约有 9996 个人不患肝癌. 对 10000 个人用甲胎蛋白法进行检查, 按其错检的概率可知, 9996 个不患肝癌者中约有 $9996 \times 0.001=9.996$ 个呈阳性. 另外 4 个真患肝癌者的检查报告中约有 $4 \times 0.99=3.96$ 个呈阳性. 仅从 13.956 个呈阳性者中看, 真患肝癌的 3.96 人约占 $28.4 \%$.

进一步降低错检的概率是提高检验精度的关键. 在实际中由于技术和操作等种种原因, 降低错检的概率又是很困难的. 所以在实际中, 常采用复查的方法来减少错误率.或用另一些简单易行的辅助方法先进行初查, 排除了大量明显不是肝癌的人后, 再用甲胎蛋白法对被怀疑的对象进行检查. 此时被怀疑的对象群体中, 肝癌的发病率已大大提高了, 譬如, 对首次检查呈阳性的人群再进行复查, 此时 $P(B)=0.284$, 这时再用贝叶斯公式计算得

$$
P(B \mid A)=\frac{0.284 \times 0.99}{0.284 \times 0.99+0.716 \times 0.001}=0.997
$$

这就大大提高了甲胎蛋白法的准确率了.
在上例中, 如果我们将事件 $B$ (“被检查者患有肝癌”) 看作是 “原因”, 将事件 $A$ ( “检查结果呈阳性”) 看作是 “结果”, 则我们用贝叶斯公式在已知 “结果”的条件下, 求出了“原因” 的概率 $P(B \mid A)$. 而求 “结果” 的 (无条件) 概率 $P(A)$, 用全概率公式. 在上例中若取 $P(B)=0.284$, 则

$$
\begin{aligned}
P(A) & =P(B) P(A \mid B)+P(\bar{B}) P(A \mid \bar{B}) \\
& =0.284 \times 0.99+0.716 \times 0.001=0.2819 .
\end{aligned}
$$

条件概率的三个公式中, 乘法公式是求事件交的概率, 全概率公式是求一个复杂事件的概率, 而贝叶斯公式是求一个条件概率.
在贝叶斯公式中, 如果称 $P\left(B_i\right)$ 为 $B_i$ 的先验概率, 称 $P\left(B_i \mid A\right)$ 为 $B_i$ 的后验概率,则贝叶斯公式是专门用于计算后验概率的, 也就是通过 $A$ 的发生这个新信息, 来对 $B_i$的概率作出的修正. 下面例子很好地说明了这一点.

**例2**  伊索寓言“孩子与狼”讲的是一个小孩每天到山上放羊, 山里有狼出没.第一天,他在山上喊: “狼来了! 狼来了! ”山下的村民闻声便去打狼, 可到山上, 发现狼没有来; 第二天仍是如此; 第三天, 狼真的来了, 可无论小孩怎么喊叫, 也没有人来救他,因为前两次他说了谎, 人们不再相信他了.
现在用贝叶斯公式来分析此寓言中村民对这个小孩的信任程度是如何下降的.
首先记事件 $A$ 为“小孩说谎”, 记事件 $B$ 为“小孩可信”. 不妨设村民过去对这个小孩的印象为

$$
P(B)=0.8, \quad P(\bar{B})=0.2 .
$$

我们现在用贝叶斯公式来求 $P(B \mid A)$, 亦即这个小孩说了一次谎后, 村民对他信任程度的改变.

在贝叶斯公式中我们要用到概率 $P(A \mid B)$ 和 $P(A \mid \bar{B})$, 这两个概率的含义是: 前者为“可信” $(B)$ 的孩子 “说谎” $(A)$ 的可能性,后者为 “不可信” $(\bar{B})$ 的孩子“说谎” $(A)$ 的可能性.在此不妨设

$$
P(A \mid B)=0.1, \quad P(A \mid \bar{B})=0.5 .
$$

第一次村民上山打狼, 发现狼没有来,即小孩说了谎 $(A)$. 村民根据这个信息, 对这个小孩的信任程度改变为 (用贝叶斯公式)

$$
P(B \mid A)=\frac{P(B) P(A \mid B)}{P(B) P(A \mid B)+P(\bar{B}) P(A \mid \bar{B})}=\frac{0.8 \times 0.1}{0.8 \times 0.1+0.2 \times 0.5}=0.444 .
$$

这表明村民上了一次当后,对这个小孩的信任程度由原来的 0.8 调整为 0.444 ,也就是(1.4.7) 调整为

$$
P(B)=0.444, \quad P(\bar{B})=0.556 .
$$

在此基础上,我们再一次用贝叶斯公式来计算 $P(B \mid A)$, 亦即这个小孩第二次说谎后,村民对他的信任程度改变为

$$
P(B \mid A)=\frac{0.444 \times 0.1}{0.444 \times 0.1+0.556 \times 0.5}=0.138 .
$$

这表明村民们经过两次上当,对这个小孩的信任程度已经从 0.8 下降到了 0.138 ,如此低的信任度,村民听到第三次呼叫时怎么会再上山打狼呢?

这个例子启发人们: 若某人向银行贷款, 连续两次未还, 银行还会第三次贷款给他吗?

上一篇：全概率公式

下一篇：没有了

本文对您是否有用？有用 (0) 无用 (0) 赞助我们

0 篇笔记写笔记

更多笔记