条件概率 (Conditional Probability)

条件概率是指在给定另一事件已经发生的情况下,某一事件发生的概率。条件概率通常表示为P(AB)P(A|B),读作“在B发生的情况下A发生的概率”。其中,P(AB)P(A|B)表示在事件B发生的前提下事件A发生的概率。

条件概率的计算公式为:

P(AB)=P(AB)P(B) P(A|B) = \frac{P(A \cap B)}{P(B)}

其中,P(AB)P(A \cap B)表示事件A和事件B同时发生的概率,P(B)P(B)表示事件B发生的概率。

对于离散随机向量 (X,Y)(X, Y), 已知 X=x\mathrm{X}=\mathrm{x} 的条件下,随机变量 Y=y\mathrm{Y}=\mathrm{y} 的条件概率为:

p(yx)=P(Y=yX=x)=p(x,y)p(x)p(y \mid x)=P(Y=y \mid X=x)=\frac{p(x, y)}{p(x)}

贝叶斯公式

参考【原创】深入理解贝叶斯推断(Bayesian inference)(醍醐灌顶) - 知乎 (zhihu.com)

两个条件概率 p(yx)\mathrm{p}(\mathrm{y} \mid \mathrm{x})p(xy)\mathrm{p}(\mathrm{x} \mid \mathrm{y}) 之间的关系

p(yx)=p(xy)p(y)p(x)p(y \mid x)=\frac{p(x \mid y) p(y)}{p(x)}

p(yx)p(xy)p(y)p(y \mid x) \propto p(x \mid y) p(y) \\

p(yx)p(y \mid x) 被称为后验概率( posterior )
p(xy)p(x \mid y) 被称为似然 ( likelihood )
p(y)p(y) 被称为先验概率 (prior)

简单例题
你今天打算去郊游,但早上多云。50% 的雨天的早上都是多云的!但多云的早上其实并不罕见,大约40%的日子早上都是多云的,同时这个月是干早的(平均 30天里只有3天会下雨,10%)。今天下雨的可能性有多大?

x={cloudy}x=\{cloudy\}

y={rainy}y=\{rainy\}

p(xy)=p(cloudyrainy)=50%p(x|y)=p(cloudy|rainy)=50\%

p(y)=p(rainy)=10%p(y)=p(rainy)=10\%

p(x)=p(cloudy)=40%p(x)=p(cloudy)=40\%

tocalculatep(yx)=p(yx)p(y)p(x)=50%10%40%=12.5%to\quad calculate \quad p(y|x)=\frac{p(y|x)*p(y)}{p(x)}=\frac{50\%*10\%}{40\%}=12.5\%

一些理解

  • P(D)P(D) :其中DD 为通过实验得到的数据。该概率表示在实际的实验中,实验结果为数据D的概率,也被称为边缘概率,或显著性证据。
  • P(A)P(B)P(C)P(A)\quad P(B)\quad P(C) : 其中A,B,C是已知的某种条件,它们的概率是事先已知的,被称为先验概率。
  • P(AD)P(A\mid D) : 当实验数据为D时,该实验处于条件A下的概率,被称为后验概率。后验概率是用来修正先验概率的,在有了实验数据之后,可以修正A的概率。
  • P(DA)P(D \mid A) : 在条件A下,获得实验数据D的概率。此被称为似然。
  • P(AD)P(A)\frac{P(A \mid D)}{P(A)} :即为 后验概率先验概率\frac{\text{后验概率}}{\text{先验概率}} ,被称为贝叶斯因子,表现了后验概率对先验概率的修正程度,也表现了推理对先验知识的支持程度。当贝叶斯因子>1时,表明推理支持先验知识,贝叶斯因子<1时,表明推理不支持先验因子。
  • 贝叶斯因子(支持度)与其极大值越接近,支持力度越强。
  • 贝叶斯因子的大小与后验概率的大小有关,即与实验获得的数据有关,不同的数据会获得不一样的后验概率,从而计算出不一样的贝叶斯因子。在数据量足够多的时候,由于[[大数定律]],会越来越接近真相。

以机器学习视角
在机器学习中,模型的参数被看作“因”,输入的数据被看作“果”。因为模型需要从数据中学习,确定这些参数,从而达到良好的拟合效果(即与输入数据之间的差距尽量合理地小)。所以机器学习的目的是利用已知的样本结果,推断出最有可能导致这些结果的参数值。

最大似然估计

似然(Likelihood)的理解
以“瓜熟蒂落”为例,假设“瓜熟”是因,“蒂落”是果。但是瓜熟并不一定导致蒂落,可能有的瓜蒂特别顽强就是不落,而蒂落也有可能不是因为瓜熟,而是因为被熊孩子掰下来了。所以“瓜熟”和“蒂落”之间虽然存在一定的关联,但并非绝对的先后关系。也就是说,“瓜熟”时“蒂落”是存在一定概率的。

代入到贝叶斯公式中:
P(瓜熟)P(\text{瓜熟}) 是先验概率,作为因,瓜熟有自己的固有概率,这就是“先验”。
P(瓜熟蒂落)P(\text{瓜熟}\mid\text{蒂落}) 是后验概率,当观察到了“果”然后推算“因”的条件概率。
P(蒂落瓜熟)P(\text{蒂落}\mid\text{瓜熟}) 是公式中的“似然”,是由“因”而导致“果”的可能性。
蒂落\text{蒂落} 被称为证据因子,P(蒂落)P(\text{蒂落}) 是通过观察样本得出的。

现在我们知道”瓜熟“时”蒂落“是一定概率的,现在瓜熟事件的概率是未知的,它由一些参数确定,蒂落事件的概率是从样本中观察到的,现在我们希望推断出最有可能导致蒂落的瓜熟事件的参数值。即我们需要使P(蒂落瓜熟)P(\text{蒂落}\mid\text{瓜熟}) 最大,即似然最大,即由“因”而导致“果”的可能性最大。

最大似然估计,即求参数使得似然最大。

最大后验估计

与上述的例子相似,如果求后验概率最大时的参数,这种方法就叫做最大后验估计。
与最大似然估计相比,最大后验估计引入了先验概率。

P()=P()P()P()P(\text{果} \mid \text{因})=\frac{P(\text{因}\mid\text{果})P(\text{因})}{P(\text{果})}