机器学习（周志华）_读书笔记

机器学习经验数据

数据中产生模型model 的算法学习算法 learning algorithm

数据集 data set 示例instance 样本 sample

属性attribute 特征feature 属性值 attribute value

属性空间attribute space 样本空间 sample space

特征向量 feature vector

维数 dimensionality

学习learning 训练 training

训练数据 training data 训练样本 training sample

训练集 training set

假设 hypothesis

真实真相 ground-truth

学习器learner

预测 prediction

label 标记 example 样例

标记空间 label space 输出空间

classification 分类

回归 regression

binary classification 二分类

positive class 正类 negative class 反类

多分类 multi-class classification

测试 testing 测试样本 testing sample

clustering 聚类 cluster 簇

监督学习 supervised learning 分类和回归

无监督学习 unsupervised learning 聚类

泛化 generalization 样本空间测试空间

分布 distribution

独立同分布 independent and identically distributed i.i.d.

假设空间：

归纳 induction 泛化 generation inductive learning

演绎 deduction 特化 specilization

归纳学习 = 样例中学习 + 数据中学习概念 concept 概念学习

假设空间搜索 hypothesis space fit匹配假设

学习过程是基于优先样本训练集进行的存在一个假设集合版本空间 version space

归纳偏好机器学习算法在学习过程中对某种类型假设的偏好归纳偏好

归纳偏好学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观

奥卡姆剃刀若有多个假设与观察一致选择最简单的那个

没有免费的午餐 NoFreeLaunch Theorem

NFL定理：学习算法的期望值都会相同。问题均匀分布

前提：所有问题出现的机会相同或所有问题同等重要

脱离具体问题空谈什么学习算法更好毫无意义。

任何一个算法都是有适用范围的。

机器学习的发展史：

artificial intelligence -> 逻辑理论家：逻辑推理就是智能

（通用问题求解） -> 知识知识就是力量知识工程专家系统 ->

基于神经网络的连接主义 connectionism

基于逻辑表示的符号主义 symbolism学习

以决策理论为基础的学习技术和强化学习技术

-> 机器学习划分为

从样例中学习在问题求解和规划中学习

通过观察和发现学习从指令中学习

机械学习示教学习类比学习和归纳学习

-> 样例中学习符号主义学习

主要有决策树和基于逻辑的学习（基于归纳逻辑程序设计 Inductive Logic Programming ILP）

基于神经网络的连接主义学习 BP算法连接主义最大的局限是其试错性

统计学习 statistical learning

支持向量机 Support Vector Machine (文本分类)

核方法 kernel method

支持向量 VC维结构风险最小化原则

深度学习多层的神经网络

过拟合欠拟合

理论 + 实验 = 理论 + 实验 + 计算 = 计算科学

计算目的数据分析素具科学核心是通过分析数据获取价值

机器学习云计算众包 crowdsourcing

统计学主要是通过机器学习对数据挖掘发挥影响机器学习领域和数据库领域则是数据挖掘的两大支撑

transfer learning 迁移学习类比学习 learning by analogy

国际机器学习会议ICML

国际神经信息处理系统会议 NIPS

国际学习理论会议 COLT

欧洲机器学习会议 ECML

亚洲机器学习会议 ACML

Journal of Machine Learning Research Machine Learning

人工智能：IJCAI AAAI Artificial Intelligence Journal Of Artificial Intelligence Research

数据挖掘：KDD ICDM Data Mining and Knowledge Discovery

ACM Transactions on Knowledge Discovery from Data

计算视觉和模式识别：CVPR IEEE Transaction on Pattern Analysis and Machine Intelligence

神经网络：Neural Computation IEEE Transaction on Neural Networks and Learning Systems

中国机器学习大会 CCML 机器学习及其应用研讨会 MLA

模型评估与选择：

错误率 error rate 精度 accuracy

误差 error

训练误差 training error 经验误差 empirical error

泛化误差 generalization error

过拟合 overfitting 训练样本自身的一些特点当做所有潜在样本都会具有的一般性质泛化能力下降

欠拟合 underfitting

过拟合学习能力过于强大训练样本的不太一般的特性也包含在内

欠拟合学习能力低下造成的欠拟合解决方法：决策树扩展分支神经网络中增加训练轮数

过拟合：无法彻底避免缓解或者减小其风险

机器学习面临的是NP难和更难有效的算法必须在多项式时间内解决

模型选择 model selection

测试集 testing set 测试误差 testing error

作为泛化误差的近化

测试样本也是从样本真实分布中独立同分布采样而得

测试集尽可能与训练集互斥

留出法 hold-out 数据集划分为两个互斥的集合一个是训练集s 测试集t

测试集训练集的划分要保持数据分布的一致性

采样sampling 中的分层采样 stratified sampling

若干次随机划分重复进行实验评估后取平均值作为留出法的评估结果

三分之二至五分之四样本用于训练剩余样本用于测试

交叉验证法 cross validation

将数据集D划分为k个大小相似的互斥子集每个子集尽量保持数据分布的一致性

从D中通过分层采样得到 k-1个子集并集作为训练集余下的子集作为测试集

k组训练/测试集 k次训练和测试

交叉验证评估结果稳定性和保真性很大程度上取决于k

k折交叉验证 k-fold cross validation k通常取10

为减少因样本划分不同而引起的差别 k折交叉验证通常要随机使用不同的划分p次

p次k折交叉验证结果的均值 10次10折交叉验证

留一法 Leave-One-Out LOO

不受随机样本划分方式的影响因为m个样本只有唯一的方式划分为m个子集

每个子集包含一个样本过拟合也会导致模型计算开销过大

自助法：bootstrapping

自助采样法 bootstrap sampling

自助法在数据集较小难以有效划分训练测试集时很有用

自助法从初始数据集中产生多个不同的训练集

调参与最终模型

参数 parameter 参数配置不同学得模型性能不同

选择学习算法算法参数进行设定参数调节 parameter tuning

对每个参数选定一个范围和变化步长

验证集 validation set 模型评估和选择中用于评估测试的数据集

性能度量 performance measure

回归任务：均方误差 mean squared error

分类任务：

错误率和精度二分类和多分类

错误率：分类错误的样本数占样本总数的比例

精度：分类正确的样本数占样本总数的比例

查准率：precision TP/(TP + FP)

查全率：recall TP/(TP+FN)

预测结果为正例预测结果为反例

真实情况正例 TP真正例 FN假反例

真实情况反例 FP假正例 TN真反例

查准率和查全率比较矛盾查准率高查全率偏低

查全率高查准率偏低

查准率和查全率 p-r 曲线图

F1值 = （2*p*R） / (P + R)

ROC 曲线

纵轴是真正例率 True Positive Rate TPR

横轴是假正例率 False Positive Rate FPR

一个学习器的ROC曲线被另一个学习器的曲线完全包住后者性能优于前者

交叉的话 AUC Area Under ROC Curve 比较ROC曲线下的面积

代价敏感错误和代价曲线：

不同类型的错误所造成的后果不同，

为权衡不同类型错误所造成的不同损失为错误赋予非均等代价 unequal cost

以二分类任务为例，根据任务的领域知识设定一个代价矩阵 cost matrix

之前的性能度量中隐式的假设了均等代价直接计算错误次数未考虑不同错误造成的不同后果

在非均等代价下不再是简单的最小化错误次数而是最小化总体代价 total cost

代价曲线 cost curve

比较检验：

比较泛化性能，测试集上的性能与测试集关系很大，机器学习算法本身具有一定的随机性

统计假设检验 hypothesis test

假设检验根据测试错误率推出泛化的错误率的分布

对单个学习器泛化性能的假设进行检验

交叉验证t检验：不同学习器的性能进行检验

McNemar检验一个数据集上比较两个算法的性能

基于算法排序的Friedman检验

偏差-方差分解 bias-variance decomposition

解释学习算法泛化性能的一种重要工具

偏差-方差分解对学习算法的期望泛化错误率进行拆解

算法在不同训练集上学得的结果很可能不同

泛化误差可分为偏差、方差与噪声之和

偏差度量了学习算法的期望预测与真实结果的偏离程度刻画了学习算法本身的拟合问题

方差度量了同样大小训练集变动所导致的学习性能的变化，刻画了数据扰动所造成的影响

噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。

偏差-方差分解说明泛化性能是由学习算法的性能、数据的充分性以及学习任务本身的难度所共同决定的。

给定学习任务，为了取得好的泛化性能，需使偏差较小，

即能够充分拟合数据，并且使方差较小，即数据扰动产生的影响小。

偏差—方差窘境 bias-variance dilemma

训练不足时欠拟合训练数据的扰动不足以使学习器产生显著变化

此时偏差主导了泛化错误率；

学习器的拟合能力增强，训练数据扰动被学习器学习到方差主导了泛化错误率。

自助采样法很有用，代价曲线 2006 发明，误分类代价测试代价标记代价属性代价

线性模型：形式简单易于建模

Linear mode

线性回归 Linear regression

均方误差欧几里得距离

基于均方误差最小化进行模型求解的方法成为最小二乘法 least square method

线性回归中最小二乘法视图找到一条直线使所有样本到直线上的欧氏距离之和最小

对数几率回归：Sigmoid函数

分类学习方法

线性判别分析 Linear Discriminant Analysis LDA

给定训练样例集设法将样例投影到一条直线上，使得同类样例的投影点尽可能近、

异类样例的投影点尽可能远；在对新样本进行分类时，将其投影到同样的这条直线上，

再根据投影点的位置确定新样本的类别。

同类样例投影点的协方差尽可能小，异类样例的投影点尽可能远离，类中心之间的举例尽可能大

类内散度矩阵 within-class scatter matrix

类间散度矩阵 between-class scatter matrix

LDA 可从贝叶斯决策理论的角度阐释当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类

多分类LDA可以将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，

通过投影减小样本点的维数，且投影过程中使用了类别信息。

LDA常被视为经典的监督将维技术

多分类学习：

利用二分类学习器解决多分类问题

拆解法将多分类任务拆分为若干个二分类任务求解

先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器

最经典的拆分策略有：一对一 OvO 一对其余 OvR 多对多 MvM

假定数据集合有N个类别，OvO将这N个类别两两配对，从而产生N(N-1)/2 个二分类任务，

例子：

OvO将为区分类别Ci 和 Cj 训练一个分类器，该分类器把数据集中的Ci类样例当做正例，

Cj类样例作为反例，在测试阶段，新样本将同时提交给所有分类器，得到了N(N-1)/2

个分类结果，最终结果根据投票产生，即把被预测的最多的类别作为分类结果。

OvR 每次将一个类的样例作为正例，所有其他类的样例作为反例来训练N个分类器，在测试时若仅有一个分类器预测为正类，

则对应的类别标记为最终分类结果，若有多个分类器预测为正类，

则通常考虑各分类器的预测置信度，选择置信度大的类别标记作为分类结果。

OvR只需训练N个分类器，OvO训练N(N-1)/2 个分类器，OvO存储开销和测试时间开销

通常比OvR更大，但在训练时，OvR的每个分类器均使用全部训练样例，而OvO的每个分类器仅用到两个类的样例，

预测性能，取决于数据分布，多数情形下，两者差不多。

MvM 每次将若干类作为正类，其他类作为反类，

纠错输出码 Error Correcting Output Codes ECOC

编码：对N个类别做M次划分，每次划分将一部分类别划分为正类，

一部分划分为反类，从而形成一个二分类训练集；一共产生多个M个训练集

，可训练出M个分类器。

解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码，

将这个预测编码与每个类别各自的编码进行比较，

返回其中距离最小的类别作为最终预测结果。

类别不平衡问题

类别不平衡class-imbalance 是指分类任务中

不同类别的训练样例数目差别很大的情况，

通常在预测分类时，我们会得到一个预测值y，将这个值与一个阈值进行比较，

通常是0.5，大于0.5称为正例，否则为反例，y实际上表达了正例的可能性，

几率y/(1-y) 则反映了正例可能性和反例可能性之间的比值，阈值设置为0.5则默认

正反例之间的可能性相同，分类器决策规则为： y/(1-y) 》 1 预测为正例

训练集中正反例数目不同时，m+表示正例数目 m- 表示反例数目，则观测几率是

m+ / m-, 通常假设：训练集是真实样本总体的无偏采样，因此观测几率就是代表了

真实几率。

于是只要分类器预测几率高于观测几率就应判定为正例，

y/(1-y) > m+/m- 预测为正例

yy / (1-yy) = y/(1-y) * (m-/m+)

类别不平衡的一个基本策略 -- 再缩放

再缩放思路简单，但是实际操作很难：训练集是真实样本总体的无偏采样

直接对训练集里的反类样例进行

欠采样 undersampling：去除一些反例使得正反例数目接近然后再进行学习

对训练集里正类样例进行过采样 oversampling 增加一些正使得正反例数目接近，

然后再进行学习

直接基于原始训练集进行学习，用训练好的分类器进行预测时，将再缩放公式

嵌入到决策过程中，成为"阈值移动" threshold-moving

过采样法不能简单的对初始正例样本进行重复采样，否则会招致严重的过拟合，

过采样法代表性算法是SMOTE 是通过对训练集里的正例进行插值来产生额外的正例；

另一方面，欠采样法不能随机丢弃反例，可能会丢失一些重要信息。

欠采样法的代表性算法EasyEnsemble 利用集成学习机制，将反例划分为若干个集合供不同的学习器使用。

这样对于每个学习器来看都是欠采样，但在全局来看却不会丢失重要信息。

再缩放，也是代价敏感学习 cost-sensitive learning

m-/m+ 用 cost-/cost+ 代替即可，cost+ 是将正例误分为反例的代价

cost- 将反例误分为正例的代价

稀疏表示 sparse representation

多分类学习虽然有多个类别但是每个样本仅属于一个类别

一个样本同时预测出多个类别标记多标记学习 multi-lable learning

决策树： decision tree

从给定训练数据集学得一个模型用以对新示例进行分类

决策树基于树结构进行决策人类在面临决策问题时一种很自然的处理机制

一颗决策树包含一个根节点若干个内部结点和若干个叶节点叶节点对应于决策结果，

其他每个结点则对应于一个属性测试

每个结点包含的样本集合根据属性测试的结果被划分到子结点中

根节点包含样本全集从根节点到每个叶结点的路径对应了一个判定测试序列

决策树学习为了产生一颗泛化能力强处理未见示例能力强的决策树

基本流程遵循简单且直观的分而治之 divide-and-conquer

决策树的生成是一个递归过程，决策树基本算法中，三种情形导致递归返回，

当前节点包含的样本全属于一个类别，无需划分

当前属性集为空，或是所有样本在所有属性上取值相同，无法划分

-- 当前结点标记为叶子结点，其类别设置为该结点所含样本最多的类别

-- 利用当前结点的后验分布

当前节点包含的样本集合为空不能划分

-- 当前结点标记为叶子结点其类别设定为其父节点所含样本最多的类别

-- 父节点的样本分布作为当前结点的先验分布

决策树的学习关键是如何选择最优划分属性，

一般而言，随着划分过程不断进行，决策树的分支结点所包含的样本尽可能属于同一类别，

即结点的“纯度” purity 越来越高

信息增益

信息熵 information entropy 度量样本集合度常用的指标

信息熵越小集合纯度越高

样本数越多的分支结点影响越大，计算属性a对样本集D进行划分的

“信息增益” information gain

信息增益越大，意味着使用属性a进行划分所获得的 “纯度提升” 越大

使用信息增益进行决策树的划分属性选择 ID3决策树算法以信息增益为准则来划分属性

信息增益准则对可取值数据较多的属性有所偏好，（编号为属性的话，N样本N编号属性值，编号的信息增益最大）

为减少这种偏好可能带来的不利影响 C4.5算法不直接使用信息增益，而是

使用增益率 gain rate选择最优划分属性

增益率准则可能对取值数目较少的属性有所偏好，

C4.5并不是直接选择增益率的最大候选划分属性，

而是使用一个启发式：

先从候选划分属性中找出信息增益高于平均水平的属性再从中选择增益率最高的

基尼指数：

CART决策树：分类和回归任务都可用

基尼指数反映了从数据集中随机抽取两个样本，其类别标记不一致的概率因此

基尼指数越小数据集合的纯度越高

所以在选择属性划分时基尼指数最小的属性作为最优划分属性

剪枝处理：

剪枝pruning 是决策树学习中对付过拟合的主要手段

在决策树学习中为了尽可能正确分类训练样本，

节点划分过程将不断重复有时会造成决策树分支过多

训练样本学习的太好了把训练集当中一些自身特点

当作所有数据都具有的一般性质而导致过拟合

可通过主动去掉一些分支降低过拟合的风险

决策树剪枝：

预剪枝 prepruning

后剪枝 post-pruning

预剪枝是在决策树生成过程中，对每个结点在划分前后进行估计，

若当前结点的划分不能带来决策树泛化能力的提升，则

停止划分并将当前结点标记为叶结点。

后剪枝是从训练集生成一棵完整的决策树，然后自底向上地

对非叶节点进行考察，若该结点所对应的子树替换为

叶结点能够带来决策树泛化能力的性能提升，则将该字数替换为叶子结点。

如何判断决策树泛化能力是否提升？

留出法

预剪枝使得决策树很多分支都没有“展开”，这不仅降低了过拟合的风险，

还显著减少了决策树的训练时间开销和预测时间开销，但另一方面，有些分支的

当前划分虽不能提升泛化性能、甚至可能导致泛化性能的暂时下降，但在其基础上进行的后续划分却

有可能导致性能显著提高；预剪枝基于“贪心”本质禁止这些分支展开，

给预剪枝决策树带来了欠拟合的风险。

后剪枝：

后剪枝先从训练集生成一颗决策树。

后剪枝决策树通常比预剪枝决策树保留了更多的分支，

一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树，

但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中的

所有非叶结点进行逐一考察，因此其训练时间开销比未剪枝预测数和预剪枝决策树

都要大得多。

对连续属性进行离散化二分法对连续属性进行处理 C4.5

与离散属性不同，若当前结点划分属性为连续属性，

该属性还可作为其后代结点的划分属性。

缺失值处理：

不完整样本，样本的某些属性值缺失

在属性数目比较多的情况下，往往会有大量样本出现缺失值

如果简单的放弃不完整样本，仅使用无缺失值得样本进行学习，

显然是对数据信息的极大浪费。

如何在属性值缺失情况下进行划分属性选择？

A:根据哪些属性值没有缺失的样本来判断属性之间的优劣

给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？

A:若样本x 在划分属性a上的取值未知，将x同时划入所有子结点，

且样本权值在于属性值a-v 对应的子结点中调整为 r-v * Wx

直观地说，让同一个样本以不同的概率划入到不同的子结点中去

将每个属性视为坐标空间中的一个坐标轴，则d个属性描述的样本就

对应了d维空间中的一个数据点，对样本分类则意味着在这个坐标空间中

寻找不同类样本之间的分类边界，决策树所形成的分类边界有一个明显的特点：

轴平行 axis-parallel 它的分类边界由若干个与坐标轴平行的分段组成

分类边界的每一段都是与坐标轴平行的，这样的分类边界使得学习结果有较好的

可解释性，每一段划分都直接对应了某个属性取值，但在学习任务的真实分类边界比较复杂时，

必须使用很多段划分才能获得较好的近似。

多变量决策树（斜决策树）实现斜划分甚至更复杂划分的决策树，

此类决策数中，非叶子结点不再是仅对某个属性，而是对属性的线性组合进行测试，

每个非叶结点都是一个线性分类器，，

在对变量决策树学习中，不是为每个非叶结点寻找一个最优化分属性，而是

试图创建一个合适的线性分类器。

决策树学习算法 ID3 C4.5 CART

C4.5Rule是一个将C4.5决策树转化为符号规则的算法，

决策树的每个分支可以容易地重写为一条规则，

但C4.5Rule算法在转化过程中，会进行规则前件合并、删减等操作，

因此，最终规则集的泛化性能甚至可能优于原决策树。

决策树划分选择准则对决策树的尺寸有较大影响，但是对泛化性能的影响是有限的。

剪枝方法和程度对决策树泛化性能的影响相当显著，实验研究表明：

在数据带有噪声时通过剪枝甚至可将决策树的泛化性能提高25%

多变量决策树算法先贪心地寻找每个属性的最有权值，在局部优化的基础上

再对分类边界进行随机扰动以试图找到更好的边界

引入线性分类器的最小二乘法；决策树的叶子结点上嵌入神经网络，感知机树

“增量学习”接收到新样本后对已学得的模型进行重新调整，

而不用完全重新学习，主要通过调整分支路径上的划分属性次序

来对树进行部分重构。 ID4，ID5R，

增量学习可以有效地降低每次接收到新样本后的训练时间开销，

但多不增量学习后的模型会与基于全部数据训练而得的模型有较大差别。

C4.5 J4.8(weka) Classifier 4.0

神经网络：neural networks

由具有适应性的简单单元组成的广泛并行互连网络，

它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

神经元模型 neuron == 简单单元

M-P神经元模型：

神经元接收到来自n个其他神经元传递过来的输入信号，

这些输入信号通过带权重的连接connection进行传递，

神经元接收到的总输入值将与神经元的阈值进行比对，

然后通过激活函数 activation function 处理以产生神经元的输出

理想中的激活函数是阶跃函数，将输入值映射为输出值0或者1，

1对应于神经元兴奋，0对应于神经元抑制。

阶跃函数不连续且不光滑，Sigmoid函数作为激活函数。

在较大范围内变化的输入值挤压到（0,1）输出值范围内，

也成为挤压函数（squashing function）

把许多个这样的神经元按一定层次结构连接起来，得到了神经网络。

一个神经网络视为包含了许多参数的数学模型。这个模型是若干个函数

相互带入嵌套而得。

感知机Perceptron 由两层神经元组成，输入层接收外界输入信号后传递给输出层，

输出层是M-P神经元，阈值逻辑单元 threshold logic unit

给定训练数据集，权重Wi以及阈值可通过学习得到。

阈值可看做一个固定输入为-1.0的哑结点 dummy node所对应的连接权重W（n+1）

这样，权重和阈值的学习可统一为权重的学习。

若感知机对训练样例预测准确，则感知机不发生变化，否则将根据

错误的程度进行权重调整。

感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元。

与或非都是线性可分的问题，

若两类模型是线性可分的，即存在一个线性超平面能将他们分开，

感知机的学习过程一定会收敛converge，否则感知机学习过程中会发生

震荡（fluctuation），其权重难以稳定，不能求得合适解。

感知机无法解决异或此类的非线性可分问题。

解决非线性可分问题，需要考虑使用多层功能神经元，

简单的两层感知机能解决异或问题，输出层与输入层之间存在一层神经元，

隐含层 hidden layer，

多层前馈神经网络：

每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在夸层连接。

前馈不是指网络中信号不能向后传递，而是指网络拓扑结构上不存在环或回路。

其中输入层神经元接收外界输入，隐层与输出层神经元对信号进行加工，

最终结果由输出层神经元输出，输入层神经元仅是接收输入，

不进行函数处理，隐层与输出层包含功能神经元。

神经网络的学习过程，根据训练数据来调整神经元之间的连接全 connection weight，

以及每个功能神经元的阈值，神经网络学到的东西，蕴涵在连接权与阈值中。

误差逆向传播算法：error BackPropagation BP算法

多指用于多层前馈神经网络

BP是一个迭代学习学习算法，在迭代的每一轮中采用广义的

感知机学习规则对参数进行更新估计，

BP算法基于梯度下降gradient descent 策略，以目标的负梯度方向对

参数进行调整。

BP算法的目标是最小化训练集D上的累计误差

基于累计误差最小化的更新规则，得到累积误差逆传播算法。

标准BP算法每次更新只针对单个样例，参数更新的非常频繁，

而且对不同样例进行更新的效果可能出现“抵消”现象，

为达到同样的累计误差极小点，标准BP需进行更多次数的迭代。

累计BP算法直接针对累计误差最小化，在读取整个训练集一遍后才对参数进行更新，

其参数更新频率低，，但很多任务中，累计误差下降到一定程度后，

进一步下降会非常缓慢，标准BP会更快获得较好的解，

尤其是训练集D非常大时更明显。

只需一个包含足够多神经元的隐层，多层前馈网络就能以任意精度逼近

任意复杂度的连续函数，通过试错法调整隐层神经元的个数。

BP经常过拟合。训练误差持续降低，但测试误差可能上升。

缓解BP网络的过拟合，早停 early stopping 将数据分成训练集和验证集

训练集用来计算梯度、更新连接权和阈值验证集用来估计误差

若训练集误差降低但验证集误差升高停止训练，同时返回具有

最小验证集误差的连接权和阈值

正则化，在误差目标函数中增加一个用于描述网络复杂度的部分，

增加连接权与阈值平方和，训练过程将会偏好比较小的连接权和阈值，

使网络输出更加光滑，对过拟合有所缓解。

引入正则化的神经网络与SVM十分相似。

最后编辑于：2017.12.06 07:45:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,198评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,663评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,985评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,673评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,994评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,399评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,717评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,407评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,112评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,371评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,891评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,255评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,881评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,010评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,764评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,412评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,299评论 2赞 260

机器学习（周志华）_读书笔记

推荐阅读更多精彩内容