一文搞懂感知机算法

什么是感知机

感知机(preceptron)是线性分类的二分类模型，输入为实例的特征向量，输出为实例的类别，分别用 1 和 -1 表示。感知机将输入空间(特征空间)中的实例划分为正负两类分离的超平面，旨在求出将训练集进行线性划分的超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得最优解。感知机是神经网络和支持向量机的基础。

感知机模型

感知机的函数公式为：
$f(x) = sign(w\cdot x + b)$

其中， w和 b 为感知机模型参数， $w \in R^n$ 叫做权值或者权值向量， $b \in R$ 叫做偏差， $w \cdot x$ 表示 w 和 x 的内积, sign 是符号函数，即：
$sign\left( x\right) =\begin{cases}1,x\geq 0\\ -1,x <0\end{cases}$
感知机的假设空间是定义在特征空间中所有线性分类模型的函数集合，即 $\{f|f(x) = w \cdot x + b\}$ .

感知机的几何解释:线性方程 $w \cdot x + b = 0$ 对应特征空间 $R^n$ 中的一个超平面 S，其中 w 是超平面的法向量，b 是超平面的截距。该超平面将特征空间分为两个部分，将特征向量分为正负两类。因此，超平面 S 成为分离超平面。

image

感知机学习策略

假设训练数据集是线性可分的，感知机的学习目标就是找到能够将正负实例点完全分开的超平面，即确定感知机模型参数 w 和 b，因此就是确定(经验)损失函数并求损失函数的最优解，即最小化。

感知机 $sign(w\cdot x + b)$ 学习的损失函数定义为:
$L(w, b) = - \sum_{x \in M}y_i(w \cdot x_i + b) 公式(1)$
下面给出推导:
1.首先写入输入空间 $R^n$ 中任意点 $x_0$ 到超平面 S 的距离:
$\dfrac {1}{\left\| w\right\| }\left| w\cdot x_0 +b\right|$
其中， $\left\| w\right\|$ 是 w 的 L2 范数。

2.当 $w \cdot x_i + b > 0$ 时, $y_i = -1$ , 而当 $w \cdot x_i + b <0$ 时， $y_i = 1$ 。因此，对于误分类的数据 $(x_i, y_i)$ 来说， $- y_i(w \cdot x_i + b) > 0$ 成立。

3.另外，误差分类点到超平面 S 的距离是

$\dfrac {1}{\left\| w\right\| }y_i (w\cdot x_i +b)$

设 M 为超平面 S 的误分类点的集合，则所有误分类点到超平面 S 的总距离为：
$\dfrac {1}{\left\| w\right\| }\sum_{x \in M}y_i(w \cdot x_i + b)$
不考虑 $\dfrac {1}{\left\| w\right\| }$ ,则得到感知机的损失函数 L(w, b)，即公式(1)

显然，损失函数 L(w, b)是非负的。如果有所分类都正确，则损失函数值为 0。而且，分类越正确，则误分类的点离超平面越近，损失函数值越小。

因此，一个特定的样本的损失函数，在误分类时时参数 w, b 的线性函数，正确分类时时 0，可以得出给定训练数据集 T，损失函数 L(w, b)是 w，b 的连续可导函数。

感知机学习算法

下面我们来看感知机的学习算法。给定一个训练数据集 $T=\{(x_1,y_1), (x_2, y_2), ..., (x_N, y_N)\}$
感知机的算法是误分类驱动的，具体采用随机梯度下降法(stochastic gradient descent). 在极小化目标函数的过程中，并不是一次使 M 中所有误分类的点梯度下降，而是每次随机一个误分类的点使其梯度下降。
具体步骤为:
1.假设误分类点的集合为 M，那么损失函数L(w, b)的梯度为:
$\nabla_wL(w, b) = - \sum_{x \in M}y_ix_i$
$\nabla_bL(w, b) = - \sum_{x \in M}y_i$
2.随机选取一个误分类的点 $(x_i, y_i)$ ，对 w, b 更新:
$w \leftarrow w + \eta y_ix_i$
$b \leftarrow b + \eta y_i$
式中 $\eta(0<\eta\leq1)$ 是步长，又称为学习率(learning_rate)，这样，通过迭代可以使损失函数不断减小，直到为 0.

当训练数据集线性可分的时候，感知机学习算法是收敛的，并且存在无穷多个解，解会由于不同的初值或不同的迭代顺序不同而有所不同。

实战

下面使用 sklearn 包中感知机来训练和分类 Iris(鸢尾花) 数据集。

from sklearn import datasets
import pandas as pd
from sklearn import Perceptron
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.utils import shuffle

iris = datasets.load_iris()

先导入数据，然后使用shuffle打乱数据顺序,

X, y = shuffle(iris.data, iris.target,random_state=7)

接下来分割训练集和测试集：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7)

然后进行样本特征的标准化缩放，为了让特征同步变化。标准化缩放就是将样本特征转化成均值为 0 ，方差为 1 的正态分布。

sc_X = StandardScaler()
X_train_std = sc_X.fit_transform(X_train)
X_test_std = sc_X.fit_transform(X_test)

创建感知机模型，进行训练，最终对测试集预测结果。

model = Perceptron()
model.fit(X_train_std, y_train)
y_pred = model.predict(X_test_std)

训练完成以后评价一下训练结果，

print ("Accuracy score on test data: {:.4f}".format(accuracy_score(y_test, y_pred)))
print ("F-score on test data: {:.4f}".format(fbeta_score(y_test, y_pred, beta = 0.5,average='weighted')))

结果如下：

image

效果不太好，我们尝试用网格搜索法来优化一下，设置好参数集，代码如下：

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.metrics import fbeta_score, accuracy_score
clf = Perceptron(random_state=7)
parameters = {'eta0':[0.1,1,10], 'max_iter':[30,40,50]}
scorer = make_scorer(fbeta_score, beta=0.5, average='weighted')
#在分类器上使用网格搜索，使用'scorer'作为评价函数
grid_obj = GridSearchCV(clf, parameters, scoring=scorer)
grid_obj.fit(X_train_std, y_train)
# 得到estimator
best_clf = grid_obj.best_estimator_
# 使用没有调优的模型做预测
predictions = (clf.fit(X_train_std, y_train)).predict(X_test_std)
best_predictions = best_clf.predict(X_test_std)

最后我们将优化前和优化后的结果打印出来比较一下效果：

# 汇报调参前和调参后的分数
print ("\nUnoptimized model\n------")
print ("Accuracy score on test data: {:.4f}".format(accuracy_score(y_test, predictions)))
print ("F-score on test data: {:.4f}".format(fbeta_score(y_test, predictions, beta = 0.5,average='weighted')))
print ("\nOptimized Model\n------")
print ("Final accuracy score on the test data: {:.4f}".format(accuracy_score(y_test, best_predictions)))
print ("Final F-score on the test data: {:.4f}".format(fbeta_score(y_test, best_predictions, beta = 0.5,average='weighted')))

运行一下，得到下图:

image

最终可以看到，我们的模型预测效果已经有明显进步了。

如果你喜欢我的文章，欢迎扫码关注公众号:机器学习Club.聚焦机器学习，关注自我管理。
[图片上传失败...(image-d73933-1534854404075)]

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,298评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,701评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,078评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,687评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,018评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,410评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,729评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,412评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,124评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,379评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,903评论 1赞 257
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,268评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,894评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,014评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,770评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,435评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,312评论 2赞 260

一文搞懂感知机算法

什么是感知机

感知机模型

感知机学习策略

感知机学习算法

实战

推荐阅读更多精彩内容