机器学习技法--Kernel Logistic Regression

本文参考整理了Coursera上由NTU的林轩田讲授的《机器学习技法》课程的第五章的内容,主要介绍了SVM和logistic regression的联系及kernel logistic regression问题,如何将kernel trick应用到logistic regression在高维空间的训练和综合了SVM flavor及LogReg flavor的Two-Level Learning方法,解释了hinge error measure、probabilistic SVM、representer theorem等概念,文中的图片都是截取自在线课程的讲义。
欢迎到我的博客跟踪最新的内容变化。
如果有任何错误或者建议,欢迎指出,感激不尽!
--

本系列文章已发五章,前四章的地址如下:


Soft-Margin SVM as Regularized

两个open source机器学习库

NTU的林智仁(Chih-Jen Lin)开发的针对linear SVM的LIBLINEAR和针对non-linear的dual\kernel SVM的LIBSVM库。

松弛变量ξn

注意:以后直接使用score来代表某个点在线性分类器下的得分,即score(Xn)=W’Zn+b。

给定任何一个边界(b,W),ξn = margin violation = max(1-yn(score),0)

因为一个点有两种可能:

  • (Xn,yn) 确实违反了边界,则ξn = 1- yn(score) >= 0
  • (Xn,yn) 没有违反边界,则ξn = 0

无约束形式

因此,可以把SVM(以后若不指明,特指使用最多的soft-margin SVM)写成以下'unconstrained'形式:

ξn不再是变量,而是根据(b,W)算出来的结果。

这个式子有点熟悉,和以前我们所做的Regularization的形式很类似:

所以我们可以把SVM看成L2 regularization,只是有很小的细节不太一样

既然是一个正则化的问题,那么为什么不直接用regularization的求解方法求解呢?

因为

  1. 不是QP问题,也不容易使用kernel trick
  2. 错误衡量里面有一个max(□,0)的操作,不可微分,很难求解

作为正则化模型的SVM

我们不难得到,C和λ的关系是

large margin <==> fewer hyperplanes <==> L2 regularization of short W

soft margin <==> special err~

larger C <==> smaller λ <==> less regularization

为什么要把SVM看成regularized model?

因为我们想要把SVM延伸扩展到其他的学习模型,比如logistic regression、linear regression等。

SVM versus Logistic Regression

SVM算法中的错误衡量

设linear score s = W’ Zn + b

  • err[0/1](s,y) = [[ ys <= 0 ]]
  • err[svm](s,y) = max(1 - ys , 0),叫做 hinge error measure,由于它在SVM的算法中使用,也叫作algorithmic error measure,由下图可知,它是err[0/1]的一个凸的上限。

SVM和Log Reg的联系

log reg的错误衡量

  • err[SCE](s,y) = log2(1+exp(-ys))

它是err[0/1]的另一个上限。

由上图可以看出,其实SVM的hinge err和Log Reg的sce err还蛮像的,从两个方向来看

-∞ <-- ys --> +∞
≈-ys err[svm](s,y) =0
≈-ys (ln2)*err[sce](s,y) ≈0

所以SVM≈L2 regularied logistic regression

二元分类的线性模型

regularized LogReg ==> approximate SVM √

SVM ==> approximate LogReg ?

把SVM用在Soft Binary Classification

简单想法

如何把两者的特性融合在一起呢?

Two-Level Learning

SVM flavor: 通过W[svm]固定了超平面的方向-->利用了kernel
LogReg flavor: 通过LogReg的训练去微调超平面以满足最大似然性(maximum likelihood),通过A放缩和B平移。

  • 通常A>0,如果W[svm]做得比较好
  • 通常B≈0,如果b[svm]做得比较好

新的LogReg问题如下:

可以把W[svm]’Φ(Xn)+b[svm]看成一个特别的转换Φsvm,它是从多维转到一维的转换。

所以可以分为两个阶段学习:

  1. 做SVM,结果作为转换,将数据转换到1维空间
  2. 做1维空间内的简单的LogReg问题

Probabilistic SVM

在SVM领域,这是一个非常常用的方法,它一开始由John Platt提出,叫做Probabilistic SVM的Platt's Model。

这样得到的soft binary classifer可能和原来的SVM的结果的边界不一定一样,因为有参数B可以平移边界。

如何解LogReg?可以用梯度下降法GD、随机梯度下降法SGD或者专门的更简单的方法(因为只有两个变量)。

kernel SVM ==> approx. LogReg in Z-space

我们并没有真的在Z空间里面找LogReg最好的解,而是利用SVM与LogReg的相似性,利用SVM的kernel trick在Z空间内解SVM,再做一些AB参数的微调以使其更满足LogReg的要求。

如果我们真的要找在Z空间里面最好的LogReg的解该怎么做呢?这是我们下一小节的课题。

Kernel Logistic Regression

Kernel Trick奏效的关键

我们在SVM问题中是怎么做的?

二次规划QP->对偶->Z空间内积->kernel...

最优的W* = ∑βZn,我们才能W*’Z = ∑βZn’Z = Σβ K(Xn,X)

重点是,W能表示成一些Z的线性组合,这是我们能够用kernel的关键!

之前讨论过一些方法,它们的最佳的W可以表示成一堆Z的线性组合

那么什么时候最好的W可以被Zn线性表示呢?

Representer Theorem

反证法容易证明:

因此,任何L2-regularied的linear model都是可以被kernelized的!

Kernel Logistic Regression

问题:


一共有N个变量β,和Z空间的维度就没有关系了。

如何解呢?

这是一个关于β的无条件的最佳化问题,可以利用GD/SGD等方法求解。

这通常叫做kernel logistic regression,即根据representer theorem利用kernel trick求解L2-regularized logistic regression。

Another View about KLR


如果把KLR看成β的线性模型,则任意一个X,它都会被转换成(K(X1,X), K(X2,X), K(X3,X) ... K(Xn,X)),这是一个N维空间。

注意:和SVM中的线性组合系数α不一样,KLR中的系数β通常都不是0!


Mind Map Summary


这一章我们讲述了kernel如何应用在logistic regression问题上,下一章我们将继续探讨如何将kernel trick应用到更一般的regression上面,敬请关注!

如果您对这一系列文章感兴趣,欢迎订阅我的专题或者关注我以获得最新的更新信息!

本文首发于我的博客,如果您想提前看到更多的内容或者懒于寻找之前的章节,可以直接来我的博客阅读长文版,感谢您的鼓励支持!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容