线性判别分析(LDA)

LDA是一种经典的线性学习方法,也称为“Fisher判别分析”。

LDA的基本思想:给定训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,不同种类样例的投影点尽可能远。

为实现同类样例的投影点尽可能接近,可让同类样例投影点的协方差尽可能小。而实现不同种类样例的投影点尽可能远,则不同种类样例投影中心的距离尽可能大。

二分类问题

同时实现以上两种情况则可最大化$J$.

其中$\mu_i$为第i类的均值向量、$\Sigma_i$为第i类的协方差矩阵,$\omega$为投影直线。$\omega^T\mu_i$为第i类投影到$\omega$上的投影中心,$\omega^T \Sigma_i\omega$为第i类投影到$\omega$上的协方差矩阵

设$S_\omega$为类内散度矩阵

设$S_b$为类间散度矩阵

此时$J$就是LDA的最大化目标,即$S_b$与$S_\omega$的广义瑞利商。

为求$\omega$令$\omega^TS_\omega\omega=1$,此时优化目标转变为

由拉格朗日乘子式,

令$S_b\omega=\lambda(\mu_0-\mu_1)$则

多分类问题

假定存在N个类,且第i类示例数为$m_i$。

设全局散度矩阵为$S_t$

其中$\mu$是所有示例的均值向量,此时

其中

多分类的优化目标为

其中$W\in R^{d\times (N-1)}$,

$W$的闭式解则是$S_\omega^{-1}S_b$的$d’$个最大非零广义特征值所对应的特征向量组成的矩阵。

LDA是一种经典的有监督降维技术,其流程为

1.计算类内散度矩阵$S_\omega$

2.计算类间散度矩阵$S_b$

3.对$S_\omega^{-1}S_b$进行特征分解

4.返回最大非零广义特征值对应的特征向量

主成分分析(PCA)

PCA是一种典型的无监督降维方法。如果用一个超平面对所有样本进行恰当的描述,则超平面应满足的性质有:

  • 最近重构性:样本点到这个超平面的距离都足够近。

  • 最大可分性: 样本点在这个超平面上的投影尽可能分开。

从最大可分性分析,样本点$x_i$在超平面上的投影为$W^Tx_i$,为实现所有样本点的投影尽可能分开这一目标,则应该使投影后的样本点之间方差最大化。投影后样本点的方差为$\sum_iW^Tx_ix_i^TW$,则最优化目标为

对上式使用拉格朗日乘子式可得

于是对$XX^T$进行特征分解,对特征值进行排序,取前$d’$个特征值对应的特征向量构成特征矩阵。

PCA的流程为

1.对所有样本进行中心化:$x_i\gets x_i -\mu$,其中$\mu$是均值

2.计算样本的协方差矩阵$XX^T$

3.对矩阵进行特征值分解

4.取最大的$d’$个特征值对应的特征向量构成特征矩阵(投影矩阵)。

输出投影矩阵

异同点比较

相同点

1、LDA与PCA都是典型的降维方法。

2、LDA与PCA都假设样本符合高斯分布。

3、LDA与PCA都应用可特征值分解

不同点

1、LDA为有监督,PCA为无监督

2、PCA是去掉原有数据的冗余的维度,LDA是选择一个最佳的投影方向,使得投影后相同类别的数据分布紧凑,不同类别的数据尽量相互远离。

3、LDA最多可以降到k-1维(k是训练样本的类别数量,k-1是因为最后一维的均值可以由前面的k-1维的均值表示);PCA无限制

4、LDA可能会过拟合数据。