前一章曾讨论过正态分布条件下,两类别问题在各特征统计独立、同方差、且先验概率相等情况下,最小错误率决策可按最小距离决策,即
(3-50)
其中 与 为各类的均值。
|
 |
尽管这是在一种很特殊的情况下得到的,但是按距离分类的原理是可以推广的,即把各类别样本特征向量的均值作为各类的代表点,而样本的类别按它到各类别代表点的最小距离划分。在这种判别函数中,决策面是两类别均值连线的垂直平分面。图3.11表示了一个二维特征空间的最小距离分类器。显然这种判别方法只有在各类别密集地分布在其均值附近时才有效。对于图3.12所示情况,若企图再用每类一个均值代表点产生最小距离分类器,就会产生很明显的错误率。在这种情况下,可以将各类别划分成相对密集的子类,每个子类以它们的均值作为代表点,然后按最小距离分类,在图3.12所示情况下可以有比较满意的效果。
归纳起来,如果对于ωi有li个子类,则有li个代表点,或者说把属于ωi的决策域Ri分成li个子域,即 ,对每个子区域Ril均值用mil表示,并以此作为该子区域的代表点,则判别函数定义为:
(3-51)
相应的判别规则是:
如果
,则X∈ωi (3-52)
这种分类器称为分段线性距离分类器。
显然对样本进行子类的合适划分是分段线性距离分类器性能好坏的一个关键问题。如对图3.13所示的情况按最小距离计算,就会将原来ω2类的X决策成ω1类,如不对ω2类进行子类划分,或采用别的决策就不会取得好的效果。
|
|