SVM的一些疑问

1. 为什么SVM问题中的正类y=-1,负类y=1

我们知道任一点到超平面的距离为

在之前的描述中我们知道函数间隔,几何间隔,我们发现加上之后就可以去绝对值,即对于正分类点

  • 时,,相乘为正
  • 时,,相乘为正

那么这就是的原因吗,有一部分原因是这样的,但也不完全是,这样做最大的好处就是计算简便,同时理解起来也更容易,看下面的解释

首先我们要明白这是一个二分类问题,既然是二分类问题,那么就只需要取两个值就可以了,当我们的分类点位于超平面的两侧时,恰好符号分别为正负,所以我们取了,当然也可以取,甚至还可以取,因为归根结底我们只需要两个不同的数就可以代表二分类问题了。我们用举个例子,在之前我们判断一个误分类点的方法是

那么现在我们修改了代表的分类值,判断方法就变为

2. 为什么在求解SVM时,令分子等于1?

SVM中求几何间隔的形式为,然后我们令分子等于1,即函数间隔等于1,将上述问题转化为

为什么可以这样做呢?首先看上述公式我们在时已经默认令函数间隔了,其实最初的形式为

也就是说我们希望最大化超平面关于训练数据集的几何间隔,约束条件表示超平面关于每个训练样本点的几何间隔至少是,这样就是如下图的形式,上述约束条件中分子就是函数间隔

考虑到函数间隔和几何间隔的关系,我们将上式转化为

这就是原始问题等价变形之后的形式了,接下来解释为什么函数间隔,在之前SVM详解这篇文章中我们知道等比例的增大或者变小时,我们的超平面是不变的,也就是说不论是,结果都是相同的,只不过得到的变成了原来的倍数,所以为了计算方便以及更好的理解,我们不如直接令;换一个理解思路就是相当于给原问题加上了一个约束条件,也就是问题变为

3. 公式推导

求导之后得到以及,带入得到下面式子

求解过程