机器学习｜SVM支持向量机代码实现解读

前言

如果你能找到这里，真是我的幸运~这里是蓝白绛的学习笔记，本集合主要针对《统计学习方法》这本书，主要是基本机器学习算法代码实现的解读。
本篇的代码整理来自github：wepe-Basic Machine Learning and Deep Learning
本篇整理SVM支持向量机实现，github地址为：wepe-SVM

第七章支持向量机

1、模型

支持向量机(Support Vector Machine，SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器；支持向量机还包括核技巧，使它成为实质上的非线性分类器。
支持向量机学习方法包含构建由简至繁的模型：线性可分支持向量机(linear support vector machine in linearly separable case)、线性支持向量机(linear support vector machine)、非线性可分支持向量机(non-linear support vector machine)。

线性可分支持向量机：当训练数据线性可分时，通过硬间隔最大化，学习一个线性分类器，即硬间隔支持向量机。
线性支持向量机：当训练数据近似线性可分时，引入松弛变量 $\xi$ ，通过软间隔最大化，学习一个线性分类器，即软间隔支持向量机。
非线性支持向量机：当训练数据线性不可分时，通过使用核技巧 $K(x,z)=\phi(x)\cdot\phi(z)$ 及软间隔最大化，学习一个非线性分类器。

函数间隔：超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的函数间隔为 $\hat{\gamma}_i=y_i(w\cdot x_i+b)$ 超平面 $(w,b)$ 关于训练数据集 $T$ 的函数间隔为 $\hat{\gamma}=\min_{i=1,2...N}\hat{y}_i.$
几何间隔：超平面 $(w,b)$ 关于样本点 $(x_i,y_i)$ 的几何间隔为 $\gamma_i=\frac{y_i(w\cdot x_i+b)}{\|w\|}$ 超平面 $(w,b)$ 关于训练数据集 $T$ 的函数间隔为 $\gamma=\min_{i=1,2...N}y_i.$
拿最简单的线性可分支持向量机来说，原始问题为： $\begin{align} &\max_{w,b}\quad \frac{1}{2}\|w\|^2\\ & \begin{array}{r@{\quad}r@{}l@{\quad}l} s.t.&y_i(w\cdot x_i+b)-1 &\geq0 &i=1,2,...,N \end{array} \end{align}$ 经过构建拉格朗日函数，对 $w$ 和 $b$ 取偏导，令其等于 $0$ 并带回拉格朗日函数，转化为对偶问题为： $\begin{aligned} &\min_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_i x_j-\sum_{i=1}^N\alpha_i \\ & \begin{array}{r@{\quad}r@{}l@{\quad}l} s.t.& \sum\limits_{i=1}^N\alpha_iy_i & =0 \\ & \alpha_i & \geq0 & i=1,2,...,N \end{array} \end{aligned}$
KKT条件为： $\begin{aligned} & \nabla_wL(w^*,b^*,\alpha^*)=w-\sum_{i=1}^N\alpha_i^*y_ix_i=0 \\ & \nabla_bL(w^*,b^*,\alpha^*)=\sum_{i=1}^N\alpha^*_iy_i=0 \\ & \alpha_i^*(y_i(w^*\cdot x_i+b^*)-1)=0,\quad i=1,2,...,N \\ & y_i(w^*\cdot x_i+b^*)-1\geq0,\quad i=1,2,...,N \\ & \alpha_i^*\geq0,\quad i=1,2,...,N \end{aligned}$ 最终可求得 $w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$ 选取其中一个 $\alpha_j^*>0$ 可求得 $b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)$
常用核函数

多项式核函数 $K(x,z)=(x\cdot z+1)^p$
高斯核函数 $K(x,z)=\exp(-\frac{\|x-z\|^2}{2\sigma^2})$ 函数 $K(x,z)$ 成为核函数的充分必要条件为 $K(x,z)$ 对应的Gram矩阵是半正定矩阵。

将原始问题转化为对偶问题的优点：

对偶问题更容易求解。
可以自然引入核函数，进而推广到非线性分类问题。

2、求解凸二次规划问题

序列最小最优化算法(sequential minimal optimization，SMO)算法用来求解对偶问题： $\begin{aligned} &\min_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_i x_j-\sum_{i=1}^N\alpha_i \\ & \begin{array}{r@{\quad}r@{}l@{\quad}l} s.t.& \sum\limits_{i=1}^N\alpha_iy_i & =0 \\ & \alpha_i & \geq0 & i=1,2,...,N \end{array} \end{aligned}$ SMO算法是一种启发式算法，包括两个部分：
(1) 求解两个变量二次规划的解析方法；
(2) 选择变量的启发式方法。

基本思想是固定 $\alpha_i$ 和 $\alpha_j$ 两个参数以外的所有 $\alpha$ 参数，而 $y_i\alpha_i+y_j\alpha_j$ 为定值， $\alpha_i$ 可以由 $\alpha_j$ 表示。固定其他参数后，就变成了求两个变量的二次规划问题。
第一个变量一般选取违反KKT条件最严重的样本点；
第二个变量一般选取使目标函数增长最快的变量。

3、代码实现

本篇的SVM支持向量机实现原始代码的github地址为：wepe-SVM，本文仅做一些注释。

class SVCSMO():
    """
        Simple implementation of a Support Vector Classification using the
        Sequential Minimal Optimization (SMO) algorithm for training.
    """
    def __init__(self, max_iter=10000, kernel_type='linear', C=1.0, epsilon=0.001, sigma=5.0):
        """
        :param max_iter: maximum iteration
        :param kernel_type: Kernel type to use in training.
                        'linear' use linear kernel function. 线性核函数
                        'quadratic' use quadratic kernel function. 二次核函数
                        'gaussian' use gaussian kernel function. 高斯和函数
        :param C: Value of regularization parameter. C软间隔最大化中的惩罚系数
        :param epsilon: Convergence value. 停机条件中的epsilon
        :param sigma: parameter for gaussian kernel高斯核函数中的sigma
        """
        self.kernels = {
            'linear' : self.kernel_linear,
            'quadratic' : self.kernel_quadratic,
            'gaussian' : self.kernel_gaussian
        }
        self.max_iter = max_iter
        self.kernel_type = kernel_type
        self.C = C
        self.epsilon = epsilon
        self.sigma = sigma

    def fit(self, X, y):
        n, d = X.shape[0], X.shape[1]# n为数据条数，d为数据维数
        alpha = np.zeros((n))# 初始化alpha，全为0，维数等于数据条数n
        kernel = self.kernels[self.kernel_type]# 根据字典获得对应的核技巧
        count = 0# 记录迭代次数，后面如果迭代次数>=max_iter就退出循环
        while True:# 每循环一次count加一，记录遍历次数。
            count += 1
            alpha_prev = np.copy(alpha)# 每次迭代将alpha拷贝一份，这里的copy()为深拷贝
            for j in range(0, n):# SMO算法中的外层循环，本来应该选取违反KKT条件最严重的alpha_j
                # 但是这里对所有alpha_j，j=1,2,...,n-1都进行了计算
                i = self.get_rnd_int(0, n-1, j) # 获得一个[0, n-1]之间的，并不等于j的数
                # alpha_i的选取本来应该选取使目标函数有足够多下降的alpha_i，但是这里是随机选取了一个不等于j的数。
                x_i, x_j, y_i, y_j = X[i,:], X[j,:], y[i], y[j]# 筛出第i条数据和第j条数据，及其对应的y
                k_ij = kernel(x_i, x_i) + kernel(x_j, x_j) - 2 * kernel(x_i, x_j)# 计算eta
                if k_ij == 0:# 如果计算出得eta为0则跳过。eta在对alpha_j的剪辑中需要用到，做分母。
                    continue
                alpha_prime_j, alpha_prime_i = alpha[j], alpha[i]# alpha_j和alpha_i的原始值。
                (L, H) = self.compute_L_H(self.C, alpha_prime_j, alpha_prime_i, y_j, y_i)# 计算alpha_j的边界

                # 计算w和b
                self.w = self.calc_w(alpha, y, X)
                self.b = self.calc_b(X, y, self.w)

                # 计算E_i和E_j
                E_i = self.E(x_i, y_i, self.w, self.b)
                E_j = self.E(x_j, y_j, self.w, self.b)

                # 计算未剪辑的alpha_j
                alpha[j] = alpha_prime_j + float(y_j * (E_i - E_j))/k_ij
                # 根据alpha_j的边界计算剪辑的alpha_j
                alpha[j] = max(alpha[j], L)
                alpha[j] = min(alpha[j], H)
                # 通过alpha_j计算alpha_i
                alpha[i] = alpha_prime_i + y_i*y_j * (alpha_prime_j - alpha[j])
                
            # 如果迭代完一轮之后，alpha的变化的范数小于精度epsilon，则停止迭代。
            diff = np.linalg.norm(alpha - alpha_prev)
            if diff < self.epsilon:
                break
                
            # 如果到达最大迭代次数，则停止迭代。
            if count >= self.max_iter:
                print("Iteration number exceeded the max of %d iterations" % (self.max_iter))
                return

        # 迭代完毕，计算模型最终的w和b
        self.b = self.calc_b(X, y, self.w)
        if self.kernel_type == 'linear':
            self.w = self.calc_w(alpha, y, X)

        # alpha_i>0对应的数据即为支持向量
        alpha_idx = np.where(alpha > 0)[0]
        support_vectors = X[alpha_idx, :]
        return support_vectors, count

    # 预测
    def predict(self, X):
        return self.h(X, self.w, self.b)

    def calc_b(self, X, y, w):
        b_tmp = y - np.dot(w.T, X.T)
        return np.mean(b_tmp)

    def calc_w(self, alpha, y, X):
        return np.dot(alpha * y, X)

    # Predict函数调用h函数
    def h(self, X, w, b):
        return np.sign(np.dot(w.T, X.T) + b).astype(int)

    # 计算预测值与实际值的差
    def E(self, x_k, y_k, w, b):
        return self.h(x_k, w, b) - y_k

    # 计算L、H边界
    def compute_L_H(self, C, alpha_prime_j, alpha_prime_i, y_j, y_i):
        if(y_i != y_j):# alpha_j - alpha_i = k
            return (max(0, alpha_prime_j - alpha_prime_i), min(C, C - alpha_prime_i + alpha_prime_j))
        else:# alpha_j + alpha_i = k
            return (max(0, alpha_prime_i + alpha_prime_j - C), min(C, alpha_prime_i + alpha_prime_j))

    # 产生一个[a,b]之间的数，并且不等于z，用于选取第二个变量
    def get_rnd_int(self, a,b,z):
        i = z
        while i == z:
            i = rnd.randint(a,b)
        return i

    # 线性核函数
    def kernel_linear(self, x1, x2):
        return np.dot(x1, x2.T)
    # 多项式核函数
    def kernel_quadratic(self, x1, x2):
        return (np.dot(x1, x2.T) ** 2)
    # 高斯核函数
    def kernel_gaussian(self, x1, x2, sigma=5.0):
        if self.sigma:
            sigma = self.sigma
        return np.exp(-linalg.norm(x1-x2)**2 / (2 * (sigma ** 2)))

总的来说，SVM就是找到一个超平面使间隔最大化，我们将其转化为对应的对偶问题，方便求解。

结尾

如果您发现我的文章有任何错误，或对我的文章有什么好的建议，请联系我！如果您喜欢我的文章，请点喜欢~*我是蓝白绛，感谢你的阅读！

最后编辑于：2019.04.12 22:46:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,924评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,902评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,716评论 0赞 239
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,783评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,166评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,510评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,784评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,476评论 0赞 196
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,196评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,459评论 2赞 243
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,978评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,321评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,964评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,046评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,803评论 0赞 193
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,530评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,420评论 2赞 265

机器学习｜SVM支持向量机代码实现解读

前言

第七章 支持向量机

1、模型

2、求解凸二次规划问题

3、代码实现

结尾

推荐阅读更多精彩内容

第七章支持向量机