机器学习笔记(持续更新)

  • 任何一个有效的机器学习算法必须有一个归纳偏好(bias),否则无法产生确定的学习结果 bias的大小决定学习算法尽可能特殊或尽可能一般 可用“奥卡姆剃刀”原则来选择bias
  • “奥卡姆剃刀”原则:如无必要,勿增实体 Entities should not be multiplied unnecessarily
  • NFL(No Free Lunch)原理:在某些问题上算法A比B好,必定存在某些问题,B比A好 所有评价学习算法好坏要针对具体问题
  • 分类的目标是让泛化误差最小,但是只能从经验误差入手(因为不知道新样本是什么)因此不能让经验误差太小(太专注特殊,没有一般性),否则经常过拟合,泛化性能很差
  • 过拟合无法完全避免,只能缓解 通过使用测试集来测试学习器对新样本的判别能力 以测试集上的测试误差(testing error)作为泛化误差的近似
  • 测试集尽量不出现在训练集中
  • 评估方法(留出法、交叉验证法、留一法、自助法)一般用留出法(训练集、测试集、验证集按比例分 8:1:1)
  • 调参工作量很大(实数范围的,不可能穷举)
  • 两类参数:模型的参数(可以很多,深度神经网络百亿个)、算法自身的参数(较少,一般10以内)
  • SVM
1.SVM由Vapnik提出,具有坚实的统计学理论基础
2.主要是用于二分类的,多分类要  专门推广,不是很方便
3.可以很好用于高维分类,避免维数灾
4.基于判别式分类,使用最大间隔原理(Max Margin)
5.使不等式成立的点为支持向量 最大间隔为 2/||W|| 因为便签为 +1 -1
6.SVM基本型如下:
7.SVM基本型是一个凸优化问题,更具体说是一个二次规划问题(目标函数是二次的,约束条件是线性的)
8.通过拉格朗日对偶(Lagrange Duality) 变换到对偶变量(dual veriable)的优化问题进行求解
9.可以引入核函数,推广到非线性分类问题
10.对于非线性可分问题,可以映射到高维空间,使样本在新的特征空间变成线性可分(如果原始空间是有限维,一定存在一个高维特征空间使样本线性可分)引入核函数避开高维障碍
11.高维空间中两个向量的内积等于它们在原始空间中对应的向量通过核函数运算的结果
12.核函数隐式地定义了特征空间,所有核函数如果选择不当,意味着将原始空间映射到了一个不合适的特征空间,导致性能不佳
13.目前还没有什么方法来确定核函数(研究点)
14.SVM的兴起曾把神经网络再次打入低谷
  • 神经网络
    1. 每个神经元都是一个感知机
    2. 若每个激活函数都是线性函数,最终只得到线性变换(线性函数的组合还是线性函数)
    3. 一般都用非线性激活函数 (对数、双曲正切、阶跃、修正线性)
    4. BP算法基于梯度下降策略,以误差函数的负梯度方向对参数进行调整(权重和阈值)
    5. 梯度下降法:一种常用的一阶优化方法(只使用目标函数的一阶导数),求解无约束优化问题最经典的方法之一
    6. 学习率控制每一步更新的步长,太大容易震荡,太小收敛慢
    7. 神经网络只需输入样本和学习率 连接权重和阈值在(0,1)随机初始化
    8. 深度学习中更常用的做法是将softmax作为最后一层的激活函数,此时用的代价函数是log-likelihood(对数自然)
    9. 标准BP(每次用一个样本来更新)和累积BP(先读取一遍训练集)算法的区别,类似于随机梯度下降和(最快)梯度下降的区别
    10. 神经网络模型越复杂则1.参数越多,训练效率低(慢)2.容易过拟合 解决办法1.云计算(计算能力强)2.大数据(样本多)
    11. 改进:1.用交叉熵代价函数代替方差代价函数 2.用分段线性函数(修正线性函数)代替sigmoid函数作隐含层激活函数
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容

  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,397评论 4 65
  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 39,713评论 12 145
  • 路灯下蚊子嗡嗡嗡飞来飞去。我感觉浑身没有一点儿力气,眼皮也耷拉下来,我开始一步一步往前挪,一不小心踩了一只...
    阿咖酚散阅读 184评论 0 0
  • 昨天下班后,办公室只有我和殷老师,开始我在询问她家长送东西的事情。后来聊到了班主任的工作,教会我一个有效的方法,统...
    c7660902c811阅读 324评论 0 0
  • 文/莫愁 01 下午的时候我在朋友圈里看到一位朋友发了一条动态,她问说:“为什么我总是遇不到对的人啊?” 说起来我...
    DJ莫愁阅读 3,498评论 0 1