TLDR (or the take away)
- 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
- 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
两大学派的争论
抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
在对事物建模时,用 表示模型的参数,请注意,解决问题的本质就是求 。那么:
- 频率学派:存在唯一真值 。举一个简单直观的例子–抛硬币,我们用 来表示硬币的bias。抛一枚硬币100次,有20次正面朝上,要估计抛硬币正面朝上的bias 。在频率学派来看, = 20 / 100 = 0.2,很直观。当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即 = 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币 = 1,出现严重错误。
- 贝叶斯学派:
是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。先验,即
,指的是在没有观测到任何数据时对
的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即
,是假设
已知后我们观察到的数据应该是什么样子的;后验,即
,是最终的参数分布。贝叶斯估计的基础是贝叶斯公式,如下:
同样是抛硬币的例子,对一枚均匀硬币抛5次得到5次正面,如果先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么 ,即 ,是一个distribution,最大值会介于0.5~1之间,而不是武断的 = 1。
问题引入
已知一组数据集 是独立地从概率分布 上采样生成的,且 具有确定的形式(如高斯分布,二项分布等)但参数 未知。
问题:如何根据数据集 估计参数 ?
为了解决上述问题,统计学界存在两种不同的解决方案:
- 频率学派:参数 是一个客观存在的固定值,其可以通过找到使数据集 出现可能性最大的值,对参数 进行估计,此便是极大似然估计的核心思想。
- 贝叶斯学派:参数 是一个随机变量,服从一个概率分布(换句话讲, 不是一个客观存在的固定值,而是可以取很多不同值的变量,且具有相应的可能性),其首先根据主观的经验假定 的概率分布为 (先验分布,往往并不准确),然后根据观察到的新信息(数据集 )对其进行修正,此时 的概率分布为 (后验分布)。
最大似然估计
核心思想:找到使数据集 出现可能性最大的值,对参数 进行估计,即 。
最大后验估计
原则上,贝叶斯学派对
的估计应该就是
的后验分布
,但是大多数时候后验分布的计算较为棘手,因此此时出现一种折衷解法:找到使后验概率最大的值,对参数
进行估计,即
根据上式可以发现,最大后验估计与最大似然估计优化过程中的差异便是多了一项
,相当于加了一项与
的先验概率
有关的惩罚项。