贝叶斯推理（Bayesian Inference）

条件概率 (Conditional Probability)

条件概率是指在给定另一事件已经发生的情况下，某一事件发生的概率。条件概率通常表示为 $P(A|B)$ ，读作“在B发生的情况下A发生的概率”。其中， $P(A|B)$ 表示在事件B发生的前提下事件A发生的概率。

条件概率的计算公式为：

$P(A|B) = \frac{P(A \cap B)}{P(B)}$

其中， $P(A \cap B)$ 表示事件A和事件B同时发生的概率， $P(B)$ 表示事件B发生的概率。

对于离散随机向量 $(X, Y)$ , 已知 $\mathrm{X}=\mathrm{x}$ 的条件下，随机变量 $\mathrm{Y}=\mathrm{y}$ 的条件概率为:

$p(y \mid x)=P(Y=y \mid X=x)=\frac{p(x, y)}{p(x)}$

贝叶斯公式

参考：【原创】深入理解贝叶斯推断(Bayesian inference)（醍醐灌顶） - 知乎 (zhihu.com)

两个条件概率 $\mathrm{p}(\mathrm{y} \mid \mathrm{x})$ 和 $\mathrm{p}(\mathrm{x} \mid \mathrm{y})$ 之间的关系

$p(y \mid x)=\frac{p(x \mid y) p(y)}{p(x)}$

$p(y \mid x) \propto p(x \mid y) p(y) \\$

$p(y \mid x)$ 被称为后验概率( posterior )
$p(x \mid y)$ 被称为似然 ( likelihood )
$p(y)$ 被称为先验概率 (prior)

简单例题
你今天打算去郊游，但早上多云。50% 的雨天的早上都是多云的!但多云的早上其实并不罕见，大约40%的日子早上都是多云的，同时这个月是干早的(平均 30天里只有3天会下雨，10%)。今天下雨的可能性有多大?

$x=\{cloudy\}$

$y=\{rainy\}$

$p(x|y)=p(cloudy|rainy)=50\%$

$p(y)=p(rainy)=10\%$

$p(x)=p(cloudy)=40\%$

$to\quad calculate \quad p(y|x)=\frac{p(y|x)*p(y)}{p(x)}=\frac{50\%*10\%}{40\%}=12.5\%$

一些理解

$P(D)$ ：其中 $D$ 为通过实验得到的数据。该概率表示在实际的实验中，实验结果为数据D的概率，也被称为边缘概率，或显著性证据。
$P(A)\quad P(B)\quad P(C)$ : 其中A,B,C是已知的某种条件，它们的概率是事先已知的，被称为先验概率。
$P(A\mid D)$ : 当实验数据为D时，该实验处于条件A下的概率，被称为后验概率。后验概率是用来修正先验概率的，在有了实验数据之后，可以修正A的概率。
$P(D \mid A)$ : 在条件A下，获得实验数据D的概率。此被称为似然。
$\frac{P(A \mid D)}{P(A)}$ :即为 $\frac{\text{后验概率}}{\text{先验概率}}$ ，被称为贝叶斯因子，表现了后验概率对先验概率的修正程度，也表现了推理对先验知识的支持程度。当贝叶斯因子>1时，表明推理支持先验知识，贝叶斯因子<1时，表明推理不支持先验因子。
贝叶斯因子（支持度）与其极大值越接近，支持力度越强。
贝叶斯因子的大小与后验概率的大小有关，即与实验获得的数据有关，不同的数据会获得不一样的后验概率，从而计算出不一样的贝叶斯因子。在数据量足够多的时候，由于[[大数定律]]，会越来越接近真相。

以机器学习视角
在机器学习中，模型的参数被看作“因”，输入的数据被看作“果”。因为模型需要从数据中学习，确定这些参数，从而达到良好的拟合效果（即与输入数据之间的差距尽量合理地小）。所以机器学习的目的是利用已知的样本结果，推断出最有可能导致这些结果的参数值。

最大似然估计

似然(Likelihood)的理解
以“瓜熟蒂落”为例，假设“瓜熟”是因，“蒂落”是果。但是瓜熟并不一定导致蒂落，可能有的瓜蒂特别顽强就是不落，而蒂落也有可能不是因为瓜熟，而是因为被熊孩子掰下来了。所以“瓜熟”和“蒂落”之间虽然存在一定的关联，但并非绝对的先后关系。也就是说，“瓜熟”时“蒂落”是存在一定概率的。

代入到贝叶斯公式中:
$P(\text{瓜熟})$ 是先验概率，作为因，瓜熟有自己的固有概率，这就是“先验”。
$P(\text{瓜熟}\mid\text{蒂落})$ 是后验概率，当观察到了“果”然后推算“因”的条件概率。
$P(\text{蒂落}\mid\text{瓜熟})$ 是公式中的“似然”，是由“因”而导致“果”的可能性。
$\text{蒂落}$ 被称为证据因子， $P(\text{蒂落})$ 是通过观察样本得出的。

现在我们知道”瓜熟“时”蒂落“是一定概率的，现在瓜熟事件的概率是未知的，它由一些参数确定，蒂落事件的概率是从样本中观察到的，现在我们希望推断出最有可能导致蒂落的瓜熟事件的参数值。即我们需要使 $P(\text{蒂落}\mid\text{瓜熟})$ 最大，即似然最大，即由“因”而导致“果”的可能性最大。

最大似然估计，即求参数使得似然最大。

最大后验估计

与上述的例子相似，如果求后验概率最大时的参数，这种方法就叫做最大后验估计。
与最大似然估计相比，最大后验估计引入了先验概率。

$P(\text{果} \mid \text{因})=\frac{P(\text{因}\mid\text{果})P(\text{因})}{P(\text{果})}$