贝叶斯推理(Bayesian Inference)
条件概率 (Conditional Probability)
条件概率是指在给定另一事件已经发生的情况下,某一事件发生的概率。条件概率通常表示为,读作“在B发生的情况下A发生的概率”。其中,表示在事件B发生的前提下事件A发生的概率。
条件概率的计算公式为:
其中,表示事件A和事件B同时发生的概率,表示事件B发生的概率。
对于离散随机向量 , 已知 的条件下,随机变量 的条件概率为:
贝叶斯公式
参考:【原创】深入理解贝叶斯推断(Bayesian inference)(醍醐灌顶) - 知乎 (zhihu.com)
两个条件概率 和 之间的关系
被称为后验概率( posterior )
被称为似然 ( likelihood )
被称为先验概率 (prior)
简单例题
你今天打算去郊游,但早上多云。50% 的雨天的早上都是多云的!但多云的早上其实并不罕见,大约40%的日子早上都是多云的,同时这个月是干早的(平均 30天里只有3天会下雨,10%)。今天下雨的可能性有多大?
一些理解
- :其中 为通过实验得到的数据。该概率表示在实际的实验中,实验结果为数据D的概率,也被称为边缘概率,或显著性证据。
- : 其中A,B,C是已知的某种条件,它们的概率是事先已知的,被称为先验概率。
- : 当实验数据为D时,该实验处于条件A下的概率,被称为后验概率。后验概率是用来修正先验概率的,在有了实验数据之后,可以修正A的概率。
- : 在条件A下,获得实验数据D的概率。此被称为似然。
- :即为 ,被称为贝叶斯因子,表现了后验概率对先验概率的修正程度,也表现了推理对先验知识的支持程度。当贝叶斯因子>1时,表明推理支持先验知识,贝叶斯因子<1时,表明推理不支持先验因子。
- 贝叶斯因子(支持度)与其极大值越接近,支持力度越强。
- 贝叶斯因子的大小与后验概率的大小有关,即与实验获得的数据有关,不同的数据会获得不一样的后验概率,从而计算出不一样的贝叶斯因子。在数据量足够多的时候,由于[[大数定律]],会越来越接近真相。
以机器学习视角
在机器学习中,模型的参数被看作“因”,输入的数据被看作“果”。因为模型需要从数据中学习,确定这些参数,从而达到良好的拟合效果(即与输入数据之间的差距尽量合理地小)。所以机器学习的目的是利用已知的样本结果,推断出最有可能导致这些结果的参数值。
最大似然估计
似然(Likelihood)的理解
以“瓜熟蒂落”为例,假设“瓜熟”是因,“蒂落”是果。但是瓜熟并不一定导致蒂落,可能有的瓜蒂特别顽强就是不落,而蒂落也有可能不是因为瓜熟,而是因为被熊孩子掰下来了。所以“瓜熟”和“蒂落”之间虽然存在一定的关联,但并非绝对的先后关系。也就是说,“瓜熟”时“蒂落”是存在一定概率的。
代入到贝叶斯公式中:
是先验概率,作为因,瓜熟有自己的固有概率,这就是“先验”。
是后验概率,当观察到了“果”然后推算“因”的条件概率。
是公式中的“似然”,是由“因”而导致“果”的可能性。
被称为证据因子, 是通过观察样本得出的。
现在我们知道”瓜熟“时”蒂落“是一定概率的,现在瓜熟事件的概率是未知的,它由一些参数确定,蒂落事件的概率是从样本中观察到的,现在我们希望推断出最有可能导致蒂落的瓜熟事件的参数值。即我们需要使 最大,即似然最大,即由“因”而导致“果”的可能性最大。
最大似然估计,即求参数使得似然最大。
最大后验估计
与上述的例子相似,如果求后验概率最大时的参数,这种方法就叫做最大后验估计。
与最大似然估计相比,最大后验估计引入了先验概率。