贝叶斯分类器

获得后验概率$P(c|x)$的两种策略:给定$x$,通过直接建模$P(c|x)$来预测$c$,这样的方法称为判别式模型(discriminative models)。先对联合概率分布$P(x,c)$建模,然后有次获得$P(c|x)$,这样的方法称为生成式模型(generative models)。决策树、BP神经网络、支持向量机等为判别式模型。朴素贝叶斯、隐马尔可夫模型等为生成式模型。对于生成式模型,

基于贝叶斯定理有

其中$P(c)$是类先验概率,$P(x|c)$是样本$x$相对于标记$c$的类条件概率,$P(x)$是用于归一化的证据因子。

朴素贝叶斯分类器

上述贝叶斯估计基于类条件概率$P(x|c)$是所有属性的联合概率,难以从有限的训练样本直接估计,朴素贝叶斯分类器采用了属性条件独立性假设:对已知类别,假设所有属性相互独立。

基于属性条件独立性假设有:

其中d为属性数目,$x_i$为$x$在第i个属性上的取值。由于对所有类别来说$P(x)$相同,因此贝叶斯判定准则为

对于离散属性而言,设$D_{c,x_i}$表示$D_c$中第i个属性上取值为$x_i$的样本组成的集合,则条件概率$P(x_i|c)$可表示为

对于连续属性,假定$p(x_i|c)\backsim N(\mu_{c,i},\sigma^2_{c,i})$,其中$\mu_{c,i}和\sigma^2_{c,i}$分别表示第i类样本在第i个属性上取值的均值和方差,

使用极大似然估计可能会出现所要估计的概率值为0的情况。这是引入拉普拉斯平滑进行修正。