1.6 全概率公式与Bayes公式

如题所述

第1个回答  2022-06-17

例:一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?

例:设女性患某种疾病的概率为 ,男性患该病的概率为 ,已知全国的男女比例为 ,求任何一人患该病的概率。

分析:记事件 为患该疾病,事件 为女性患该病,事件 为男性患该病,则

定理:设 为样本空间,若事件 满足

则称 为样本空间 的一个 分划 ,进而可得

也即

该公式称为 全概率公式 (Law of Total Probability)

例:袋中有 只红球 只白球,先从袋中任取一球,记下颜色后放回,同时向袋中放入同颜色的球 只,然后再从袋中取出一球。求第二次取到白球的概率。

解:记 ,显然 是 的一个分划,由全概率公式有

思考:若第2次向袋中放入同颜色的球 只,结果如何?
答:结果不变

例:有10个袋,其中甲袋二个,每袋中有红球、白球各2个;乙袋三个,每袋中有红球3个、白球2个;丙袋五个,每袋中有红球2个、白球3个.从十个袋中任取一袋,再从袋中任取一球,求取到白球的概率.

解:记 分别表示取到甲、乙、丙袋, 表示取到白球。由全概率公式

问:如果将三个袋中的球混合在一起,然后任取一球,问取到白球的概率是否一样?
答:不同!全概率公式是概率的加权平均。

例:甲、乙两坦克的首发命中率均为0.8,经修正后的第二发命中率均为0.9, 敌目标被一发炮弹击中而被击毁的概率为0.2,被两发炮弹击中而击毁的概率为0.5,被三发炮弹击中必定被击毁. 在战斗中,甲、乙两坦克分别向敌同一目标发射了两发炮弹,求敌目标被击毁的概率.

解:设 表示目标被击毁, 表示目标被 发炮弹击中, 。

由全概率公式

设 为样本空间的一个分划,且

则由乘法公式

结合全概率公式 ,可以得到

该公式称为 Bayes公式

Bayes公式体现了一种“因”和“果”的联系,很多时候不仅可以由因推果,也可以由果推因。

例( 吸毒检测 ):假设一个常规的检测结果的敏感度与可靠度均为 ,即吸毒者每次检测呈阳性(+)的概率为 。而不吸毒者每次检测呈阴性(-)的概率为 。从检测结果的概率来看,检测结果是比较准确的,但是Bayes定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知 的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

分析:令 为雇员吸毒事件, 为雇员不吸毒事件, 为检测呈阳性事件。可得

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率 :

结论:尽管吸毒检测的准确率高达99%,但Bayes定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。

类似的情况:

例:某工厂的一、二、三车间都生产同一产品,产量分别占总产量的15%,80%,5%三个车间的次品率分别为2%,1%,3%.现从汇总起来的产品中任取一个,经检查是次品,判断该次品是哪个车间生产的可能性较大?

分析:这是“因—果”分析问题,故应用Bayes公式

解:记 表示取得次品, 表示取到的产品是 车间生产的, ,由全概率公式

再由Bayes公式

可见该次品是第二车间生产的可能性较大。

以上的分析过程也被称为 Bayes推断 。

Bayes推断

假定 为导致试验结果的“原因”,称 为 先验概率 。

若试验产生事件 ,则要探讨事件发生的“原因”,称 为 后验概率 ,称 为 原因概率

例:假定 为各种疾病,应用统计方法可确定患病的概率(先验概率)

应用医学知识确定每种疾病下指标 (例如体温、脉搏、血象等)出现的概率(原因概率),应用Bayes公式,可以计算出该指标意味着某种疾病的概率(后验概率)

这正是大数据在医疗系统中应用的原理。

课后思考题:习题一:20,21,22,23,24

参见 数学之美番外篇:平凡而又神奇的贝叶斯方法

例( 拼写纠正

首先,我们的问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:

这个概率,并找出那个使得这个概率最大的猜测单词。

显然,我们的猜测未必是唯一的。比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?到底哪个猜测可能性更大呢?幸运的是我们可以用Bayes公式来直接算出它们各自的概率,我们不妨将我们的多个猜测记为 ( 代表 hypothesis),它们都属于一个有限且离散的猜测空间 (单词总共就那么多而已),将用户实际输入的单词记为 ( 代表 Data ,即观测数据),于是 可以抽象地记为: ,类似地,对于我们的猜测2,则是 。不妨统一记为:

运用一次Bayes公式,我们得到:

对于不同的具体猜测 , 都是一样的,所以在比较 和 的时候我们可以忽略这个常数。即我们只需要知道:

这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下 这个值,然后取最大的,得到的就是最靠谱的猜测。

类似的方法可以用来处理 自然语言的二义性问题 ,例如

到底是 The girl saw-with-a-telescope the boy 这一语法结构,还是 The girl saw the-boy-with-a-telescope 呢?两种语法结构的常见程度都差不多(你可能会觉得后一种语法结构的常见程度较低,这是事后偏见,你只需想想 The girl saw the boy with a book 就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢?

比价合理的解释是:如果语法结构是 The girl saw the-boy-with-a-telecope 的话,怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来 saw-with 的东东捏?这也忒小概率了吧。他咋就不会拿本书呢?拿什么都好。怎么偏偏就拿了望远镜?所以唯一的解释是,这个“巧合”背后肯定有它的必然性,这个必然性就是,如果我们将语法结构解释为 The girl saw-with-a-telescope the boy 的话,就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的,那么这个东西是一个望远镜就完全可以解释了(不再是小概率事件了)。

还有 中文分词 的问题,比如

给定一个句子(字串),如:

如何对这个句子进行分词(词串)才是最靠谱的。例如:

这两个分词,到底哪个更靠谱呢?

显然这个思想还可以推广到 机器翻译 的领域,甚至是 图像识别 垃圾邮件过滤