从前述章节可以看出,基于距离度量是人们常用来进行分类的重要依据,因为一般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本由于具有共性,因此类内样本间距离应比跨类样本间距离小。Fisher准则正是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的。同样在特征选择与特征提取中也使用类似的原理,这一类被称为基于距离的可分性判据。 为了度量类内、类间的距离,也可用另一种描述方法,即描述样本的离散程度的方法。在讨论Fisher准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵Sb,按(3-18)有 ![]() 另一个是类内离散度矩阵SW,按(3-16)与(3-17)有: SW=S1+S2 及 ![]() 以上式子是针对两类别情况的,如果推广至c类别情况,同时考虑各类的先验概率Pi不等,则可将上列各式表示成: ![]() ![]() 其中 ![]() 利用(4-3)与(4-4)式可以将基于距离的可分性判据表示成以下形式: 1 计算特征向量间平均距离的判据 ![]() 其中“tr”表示矩阵的迹。(4-5)式实际上是从计算特征向量间总平均距离的公式推导得到的,该式可写成 ![]() 其中Pi、Pj分别表示各类的先验概率,ni、nj分别是第i与j类的样本个数, ![]() ![]() 利用均值向量 ![]() ![]() ![]() ![]() 代入(4-6)式可得 ![]() (4-10)中右边括弧里的前一项涉及类内各特征向量之间的平方距离,后一项则是类间距离项。后一项可写成 ![]() 显然利用(4-10)与(4-11)就可得到(4-5)。需指出的是由(4-6)推导的各式是利用有限样本数据,因此得到的都是母体各量的估计值,而(4-5)式用的是母体的离散度矩阵。 2 考虑类内类间欧氏距离的其它判据 判据Jd(X)是计算特征向量的总平均距离,以下一些判据则基于使类间离散度尽量大,类内离散度尽量小的考虑而提出: ![]() ![]() ![]() ![]() 其中 ![]() |