1. 为什么SVM问题中的正类y=-1,负类y=1
我们知道任一点到超平面的距离为
在之前的描述中我们知道函数间隔,几何间隔
,我们发现加上
之后就可以去绝对值,即对于正分类点
时,
,相乘为正
时,
,相乘为正
那么这就是取
的原因吗,有一部分原因是这样的,但也不完全是,这样做最大的好处就是计算简便,同时理解起来也更容易,看下面的解释
首先我们要明白这是一个二分类问题,既然是二分类问题,那么就只需要取两个值就可以了,当我们的分类点位于超平面的两侧时,恰好符号分别为正负,所以我们取了
,当然也可以取
,
,甚至还可以取
,因为归根结底我们只需要两个不同的数就可以代表二分类问题了。我们用
举个例子,在之前我们判断一个误分类点的方法是
那么现在我们修改了代表的分类值,判断方法就变为
2. 为什么在求解SVM时,令分子等于1?
SVM中求几何间隔的形式为,然后我们令分子等于1,即函数间隔等于1,将上述问题转化为
为什么可以这样做呢?首先看上述公式我们在时已经默认令函数间隔
了,其实最初的形式为
也就是说我们希望最大化超平面关于训练数据集的几何间隔,约束条件表示超平面
关于每个训练样本点的几何间隔至少是
,这样就是如下图的形式,上述约束条件中分子就是函数间隔
考虑到函数间隔和几何间隔的关系,我们将上式转化为
这就是原始问题等价变形之后的形式了,接下来解释为什么函数间隔,在之前SVM详解这篇文章中我们知道当
等比例的增大或者变小时,我们的超平面是不变的,也就是说不论是
,结果都是相同的,只不过得到的
变成了原来的倍数,所以为了计算方便以及更好的理解,我们不如直接令
;换一个理解思路
就是相当于给原问题加上了一个约束条件,也就是问题变为
即
3.
到
公式推导
对求导之后得到
以及
,带入得到下面式子
求解过程