线性判别分析(LDA)
LDA是一种经典的线性学习方法,也称为“Fisher判别分析”。
LDA的基本思想:给定训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,不同种类样例的投影点尽可能远。
为实现同类样例的投影点尽可能接近,可让同类样例投影点的协方差尽可能小。而实现不同种类样例的投影点尽可能远,则不同种类样例投影中心的距离尽可能大。
二分类问题
同时实现以上两种情况则可最大化$J$.
其中$\mu_i$为第i类的均值向量、$\Sigma_i$为第i类的协方差矩阵,$\omega$为投影直线。$\omega^T\mu_i$为第i类投影到$\omega$上的投影中心,$\omega^T \Sigma_i\omega$为第i类投影到$\omega$上的协方差矩阵
设$S_\omega$为类内散度矩阵
设$S_b$为类间散度矩阵
则
此时$J$就是LDA的最大化目标,即$S_b$与$S_\omega$的广义瑞利商。
为求$\omega$令$\omega^TS_\omega\omega=1$,此时优化目标转变为
由拉格朗日乘子式,
令$S_b\omega=\lambda(\mu_0-\mu_1)$则
多分类问题
假定存在N个类,且第i类示例数为$m_i$。
设全局散度矩阵为$S_t$
其中$\mu$是所有示例的均值向量,此时
其中
则
多分类的优化目标为
其中$W\in R^{d\times (N-1)}$,
$W$的闭式解则是$S_\omega^{-1}S_b$的$d’$个最大非零广义特征值所对应的特征向量组成的矩阵。
LDA是一种经典的有监督降维技术,其流程为
1.计算类内散度矩阵$S_\omega$
2.计算类间散度矩阵$S_b$
3.对$S_\omega^{-1}S_b$进行特征分解
4.返回最大非零广义特征值对应的特征向量
主成分分析(PCA)
PCA是一种典型的无监督降维方法。如果用一个超平面对所有样本进行恰当的描述,则超平面应满足的性质有:
最近重构性:样本点到这个超平面的距离都足够近。
最大可分性: 样本点在这个超平面上的投影尽可能分开。
从最大可分性分析,样本点$x_i$在超平面上的投影为$W^Tx_i$,为实现所有样本点的投影尽可能分开这一目标,则应该使投影后的样本点之间方差最大化。投影后样本点的方差为$\sum_iW^Tx_ix_i^TW$,则最优化目标为
对上式使用拉格朗日乘子式可得
于是对$XX^T$进行特征分解,对特征值进行排序,取前$d’$个特征值对应的特征向量构成特征矩阵。
PCA的流程为
1.对所有样本进行中心化:$x_i\gets x_i -\mu$,其中$\mu$是均值
2.计算样本的协方差矩阵$XX^T$
3.对矩阵进行特征值分解
4.取最大的$d’$个特征值对应的特征向量构成特征矩阵(投影矩阵)。
输出投影矩阵
异同点比较
相同点
1、LDA与PCA都是典型的降维方法。
2、LDA与PCA都假设样本符合高斯分布。
3、LDA与PCA都应用可特征值分解
不同点
1、LDA为有监督,PCA为无监督
2、PCA是去掉原有数据的冗余的维度,LDA是选择一个最佳的投影方向,使得投影后相同类别的数据分布紧凑,不同类别的数据尽量相互远离。
3、LDA最多可以降到k-1维(k是训练样本的类别数量,k-1是因为最后一维的均值可以由前面的k-1维的均值表示);PCA无限制
4、LDA可能会过拟合数据。