吴恩达机器学习笔记-机器学习系统设计

确定执行的优先级

我们已经学习过一些机器学习的算法,那么如何设计一个机器学习系统呢,课程中举了一个垃圾邮件分类器的例子,例子比较简单这里就不再赘述:

那么如何来提升这个分类器的准确度呢?有下面几个建议:

  • 收集更多的数据
  • 增加更复杂的特征(比如邮件头)
  • 开发更复杂的算法来鉴定错误拼写

误差分析

如果你准备研发一个机器学习应用,下面有一些关于开发的一些建议:

其中误差分析不一定会对改善算法的表现有帮助,唯一的办法是尝试着去做然后看看其是否能起到效果。并且我们需要设定一个误差的度量值来判断该算法是否是有效的。

偏斜类问题的误差评估

举一个判断癌症的问题,这显然是个分类问题,假设y=1为是癌症,反之则判定为不是。我们可能会设计一个算法,该算法的准确率有99%,也就是说1%的误差。但如果癌症患者实际上只占据0.5%,那么设计一个算法,该算法设定y的值恒为0,那么这个算法的误差率只有0.5%。比之前设计的算法的误差要低,但这个算法显然是不符合要求的,因为它设定y的值为一个固定值,这并不是我们想要的。
像这种分类问题中,正负样本的数量偏差太大,比如这个例子里假设是癌症为正样本,那么这里的负样本的数量显然远远大于正样本,这种情况就叫做偏斜类(skewed classes)。那么在这种情况下,我们需要一个不同的误差度量值,其中一种误差度量值叫做查准率和召回率,如下所示:

假设我们用一个测试集评估一个分类模型,对于测试集中的样本,每个测试集的样本都等于1或者0,学习算法要做的是做出值的预测,并且学习算法会为每一个测试集中的实例做出预测,预测值也是1或者0。那么如上图的2*2的表格。如果有一个样本它实际所属的类是1,预测的类也是1,那么我们叫这个样本为True Positive,意思是算法预测其为1且实际上它的确为1;如果有一个样本所属的类为0,但算法预测的值为1,那么称这个样本为False Positive;如果有一个样本所属的类为1,但算法预测的值为0,那么称这个样本为False Negative;如果有一个样本所属的类为0,且算法预测的值为0,那么称这个样本为True Negative;
所谓查准率(precision),在这里就是实际上患有癌症且我们预测患有癌症的占据所有预测的患有癌症的比例,公式就是:
\frac{True Positives}{Predicted Positive} = \frac{True Positive}{True Positive+False Positive}
所谓召回率(recall),在这里就是实际上患有癌症且我们预测患有癌症的占据实际上患有癌症的比例,公式就是:
\frac{True Positives}{Actual Positive} = \frac{True Positive}{True Positive+False Negative}
当查准率和召回率都很大时,我们就可以断定该算法是符合我们期望的。上述例子里,恒为0的那个算法的召回率就是0,因此判定该算法是不符合我们所期望的。

查准率和召回率的权衡

继续讨论上述的癌症判定问题,之前我们判定分类问题时经常设定大于等于0.5则为1,反之为0。但假设这里希望对于判定癌症的肯定程度更高一点,那么就可以设定大于等于0.7的时候才判定为癌症。那么这个时候,按照公式,查准率会变高,召回率会变低。如果假设这里希望不漏过更多可能为癌症的患者,那么久可以设定大于等于0.3时判定为癌症,根据公式,此时召回率会变高,查准率会变低。一般来说这里的判定临界值需要根据不同情况来决定。

那如何来比较这些查准率和召回率呢?下面有三组算法对应的查准召回率:

如果用两者的平均值来衡量算法是否合适呢?我们来看最后一个算法的召回率为1,也就是说假预测所有的数据都为1,这种算法显然是不符合要求的,但其查准召回率的平均值是三者中最高的,显然用平均值来判断是不合适的。这里就提出一个F Score的概念(也叫做F1 Score):
F Score = 2\frac{PR}{P+R}
用这个值来判定算法是否合适,上述三个算法中,第一个算法的F Score最高,因此可以判定该算法是最合适的。这个F Score没有什么其他特殊含义,但可以给我们选择机器学习算法时起到一个帮助判断的作用。

机器学习数据

在有大量的数据的情况下,并在某种类型的学习算法中进行训练。可以是一种获得一个具有良好性能的学习算法 有效的方法。因此在机器学习中有一个共识:

取得成功的人不是拥有最好算法的人 而是拥有最多数据的人

那么这种说法怎样判断是否正确呢?首先特征x要包含足够的信息来预测y(比如在只给定x的情况下,该领域的专家能自信的预测y),然后,我们要训练一个具有大量参数(能够学习或表示相当复杂的函数)的学习算法,这样可以使得偏差更小,在此之上拥有大量数据的话,可以使得方差减小。这样我们可以得出一个较为良好的算法。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,907评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,546评论 1 289
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,705评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,624评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,940评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,371评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,672评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,396评论 0 195
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,069评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,350评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,876评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,243评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,847评论 3 231
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,004评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,755评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,378评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,266评论 2 259

推荐阅读更多精彩内容