机器学习:支持向量机4

本文来自同步博客

P.S. 不知道简书怎么显示数学公式以及更好的排版内容。所以如果觉得文章下面格式乱的话请自行跳转到上述链接。后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱。看原博客地址会有更好的体验。

前面介绍的SVM,无论是线性可分还是非线性可分,称为Hard Margin SVM,都要求对输入数据进行精确划分。我们不难想到这类SVM存在过拟合这个问题。如果输入数据本身就存在误差,精确划分反而是没意义的。本篇文章就如何处理过拟合问题,介绍即所谓的Soft Margin SVM

数学推导

引入衡量误差的变量 -\xi\_i--\xi\_i-表示不能被正确分类的样本点距离正确一侧边界的距离,距离越大表示错误越大,即-\xi\_i-越大。如果样本点能被正确分类,则-\xi\_i = 0-。故有-\xi\_i \ge 0-

那么,原来能通过求解函数-\frac{1}{2}\vec{w}^{2}-在最小化下的参数-\vec{\alpha}-,如今需要增加能够体现误差的约束条件再求解。

可以如下构造函数来描述误差:
\frac{1}{2}\vec{w}^{2} + C\sum_{i}^{n}{\xi\_i}

这个函数把所有输入数据的误差叠加在一起,即-\sum_{i}^{n}{\xi\_i}-。然后用参数C来控制所有误差的权重。如果C很大,表示即使有很小的误差出现都会严重影响目标函数。

结合之前文章提到的知识,可以构造拉格朗日方程:

L(\vec{w}, b, \vec{\xi}, \vec{\alpha}, \vec{\beta}) = \frac{1}{2}\vec{w}^{T}\vec{w} + C\sum_{i}^{n}{\xi\_i} - \sum\_{i}^{n}{\alpha\_i[y\_i(\vec{w}^{T}\vec{x\_i}+b)-1+\xi\_i]} - \sum\_{i}^{n}\beta\_i\xi\_i
其中,
\alpha\_i \ge 0, \beta\_i \ge 0, i = 1,2...n

然后利用对偶思想求解-\vec{w}, b, \xi-的导数,并让他们等于0。如下:

\begin{array}{lcl} \frac{\partial L}{\partial \vec{w}} = \vec{w} - \sum\_{i}^{n}\alpha\_{i} y\_{i} \vec{x}\_i = 0 \\\\ \frac{\partial L}{\partial b} = - \sum\_{i}^{n}\alpha\_{i} y\_{i} = 0 \\\\ \frac{\partial L}{\partial \xi\_{i}} = C - \alpha\_{i} - \beta\_{i} = 0 \end{array}

代入上面的拉格朗日方程,可以得到二项规划方程。最后求解-\vec{\alpha}-,可得-\vec{w}--b-。二项规划方程如下:
F(\alpha) = \frac{1}{2}\sum\_{i}^{n}\sum\_{j}^{m}y\_{i}y\_{j}\alpha\_{i}\alpha\_{j}\vec{x}\_{i}^{T}\vec{x}\_{j} - \sum\_{i}^{n} \alpha\_i, C \ge \alpha\_i \ge 0, i = 1,...,n

其中-\vec{w}-如下:
\vec{w} = \sum\_{i}^{n}\alpha\_{i}y\_{i}\vec{x}\_{i}

-b-可利用落于边界上的支持向量求解。

比较

看到二项规划那一步,我们可以发现Hard Margin SVMSoft Margin SVM的差别仅仅是-\alpha\_i-的取值范围上有差异。Hard Margin SVM的约束条件是-\alpha\_i \ge 0-Soft Margin SVM的约束条件是-C \ge \alpha\_i \ge 0-

我们知道-\alpha\_{i}-仅在-\vec{x}-为支持向量时值大于零。而在这里,-\alpha\_{i}-多了一个上限C。因为-C = \alpha\_{i} + \beta\_{i}-,所以有下面结论:

如果-\alpha\_{i} = 0-,表示该点为非支持向量。

如果- 0 \lt \alpha\_{i} \lt C-,则-\beta\_{i} \gt 0-,对应的-\xi\_{i} = 0-,表示该点为边界支持向量。如下图:

image.png

如果-\alpha\_{i} = C-,则-\beta\_{i} = 0-,对应的-\xi\_{i} \gt 0-,表示该点违反了最大边界的原则,属于噪声点。

image.png

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,907评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,546评论 1 289
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,705评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,624评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,940评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,371评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,672评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,396评论 0 195
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,069评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,350评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,876评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,243评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,847评论 3 231
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,004评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,755评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,378评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,266评论 2 259

推荐阅读更多精彩内容