贝叶斯概率的理解
条件概率公式与贝叶斯公式
首先我们在高中时期就学习过基础的概率论的内容,其中有一部分讲到了条件概率这一概念。下面我们来看一下条件概率的定义式:
P(Y|X)=P(YX)P(X)
它表达了在事件X发生的条件下事件Y所发生的概率。
而由条件概率公式我们就可以推出最经典的贝叶斯公式:
P(X|Y)=P(XY)P(Y)=P(Y|X)P(X)P(Y)
下面我们可以假设X是由相互独立的事件组成的概率空间{X1,X2,…,Xn},则概率P(Y)可以用全概率公式展开成P(Y)=P(Y|X1)P(X1)+P(Y|X2)P(X2)+⋯+P(Y|Xn)P(Xn)所有可能条件下的概率的和的形式,此时贝叶斯公式可以表示为
P(Xi|Y)=P(Y|Xi)P(Xi)∑ni=1P(Y|Xi)P(Xi)
在贝叶斯概率中,我们经常会把P(X|Y)与P(Y|X)叫做后验概率,将P(X)叫做先验概率,将P(Y)叫做基础概率,也叫做标准化常量(normalized constant)。先验概率的含义就是我们在日常生活中通过经验以及一系列的实验所得到的概率。
贝叶斯理论和贝叶斯概率以托马斯·贝叶斯(Bayes)(1702-1761)命名,那么我们接下来就可以得到贝叶斯在最初的时候证明的现在的贝叶斯定理的一个特例。术语贝叶斯
却是在1950年左右开始使用,很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明了贝叶斯定理的一个更普遍的版本,并将之用于解决天体力学、医学统计中的问题,在有些情况下,甚至用于法理学。但是拉普拉斯并不认为该定理对于概率论很重要。他还是坚持使用了概率的经典解释。
条件概率的链式法则
P(x(1),…,x(n))=P(x(1))Πni=2P(x(i)|x(1),…,x(i−1))
这就是条件概率的链式法则或者称作乘法法则,其可以直接从条件概率的公式得到,例如,连续使用两次公式就可以得到:
P(a,b,c)=P(a|b,c)P(b,c)P(b,c)=P(b|c)P(c)P(a,b,c)=P(a|b,c)P(b|c)P(c)
贝叶斯法则的原理
通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述。
作为一个规范的原理,贝叶斯法则对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯法则。
P(X|Y)=P(XY)P(Y)=P(Y|X)P(X)P(Y)∝P(Y|X)P(X)
这个公式可以总结为后验概率 = (似然度 * 先验概率)/标准化常量 也就是说,后验概率与先验概率和似然度的乘积成正比。另外比例P(B|A)/P(B)有的时候也被称为标准似然度(standardised likelihood),则这个公式还可以表述为后验概率=标准似然度*先验概率。
我们都知道,经典的贝叶斯公式是由条件概率公式推导而得出的,那么下面我们对条件概率公式进行一下变形:
P(A|B)=P(A)P(B|A)P(B)
在这里,我们将概率P(A)称为“先验概率”(prior probability),即在事件B发生之前,我们对事件A发生的概率的一个判断。概率P(A|B)称为“后验概率”(posterior probability),即在事件B发生之后,我们对事件A发生概率的重新评估。P(B|A)/P(B)称为“可能性函数”(likelyhood,似然函数),这是一个调整因子,使得预估概率更接近真实概率。
所以,条件概率可以理解成下面的式子:
后验概率 = 先验概率 x 调整因子
这就是贝叶斯推断的含义。我们先预估一个“先验概率”,然后加入实验结果,看这个实验到底是加强了还是削弱了“先验概率”,由此得到更接近真实的“后验概率”。
在这里,如果”可能性函数”P(B|A)/P(B)>1,意味着”先验概率”被增强,事件A的发生的可能性变大;如果”可能性函数”=1,意味着B事件无助于判断事件A的可能性;如果”可能性函数”<1,意味着”先验概率”被削弱,事件A的可能性变小。
参考文献
- 贝叶斯概率,https://zh.wikipedia.org/wiki/贝叶斯概率
- 条件概率,全概率,贝叶斯公式理解,https://www.jianshu.com/p/c59851b1c0f3