Bayesian Statistics

贝叶斯统计

Posted by Wenlong Shen on December 11, 2016

概率论本身源于人类对于赌博孜孜不倦的追求 -_-! 这个世界是不确定的,生命无处不是概率,也是赌博,我们看到的太少,未知的太多…

贝叶斯公式

人类对于事物的认知总是由浅入深由简入繁,当我们能够清楚观察出一个模型,或者用大量实验模拟出这个模型时,它所有的可能结果都被我们预知,于是传统概率论给出了显而易见的结论,让我们知道了抛硬币的50/50,了解了骰子的六面。然而现实世界是不确定的,我们根本不可能知道庄家手里有多少灌了铅的骰子,也不可能为每个骰子设立模型。

当贝叶斯给出自己的公式时,不知道他是否意识到自己将改变整个世界对于概率统计方法的认知。

\[P(B|A)=\frac{P(A|B)P(B)}{P(A)}=\frac{P(A|B)P(B)}{\sum_{B'} P(A|B')P(B')}\]

在已知A条件下B的概率(即B的后验概率),等于当B发生时A的概率(即B的似然度)乘以B自身的先验概率再除以所有可能的A(即A的先验概率)。

贝叶斯解决的是逆向概率问题,因为很多时候我们想要知道的是后验概率,我们需要知道的不是\(P(A\mid B)\)而是\(P(B\mid A)\),亦或者\(P(model\mid data)\)。贝叶斯理论对于生物大数据研究有很重要的意义,我们往往并不知道内在的生物学模型究竟是什么样,但通过贝叶斯,我们可以在已有数据的基础上,进一步推导理论模型,预测新数值。

潜在难点

首先是计算问题,贝叶斯计算涉及到的参数往往都是未知的,这需要大量的数值计算以模拟(如马尔可夫蒙特卡洛方法),这在计算机出现之前几乎是无法完成的;其次是先验概率分布,贝叶斯方法要求明确先验概率的分布情况,而很多时候这个可能也是未知的。