知识预备:范数http://blog.csdn.net/shijing_0214/article/details/51757564 我们经常会听...
疑问: 为什么要分训练集、验证集、测试集? 为什么采用交叉验证? 交叉验证的应用场景是什么? 最终预测模型是怎么得到的? 预备知识:什么是超参数...
1、什么是随机森林?随机森林就是用随机的方式建立一个森林,在森林里有很多决策树组成,并且每一棵决策树之间是没有关联的。当有一个新样本的时候,我们...
主要思考几个问题: 1、logistic回归的应用场景 Logistic回归是一种用于解决二分类问题的机器学习方法,是一种判别模型:表现为直接对...
1.载入数据集 scikit-learn里面自带了一些标准数据集,例如用于分类的数据集iris和digits,以及用于回归的boston房价数据...
在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中,故没有参加决策树的建...
相同点:(1)都是由多棵树组成的,都是集成学习算法(2)最终的结果都是由多颗树一起决定 不同点:(1)组成随机森林的树可以是分类树,也可以是回归...
总体思路: 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。单因素研究:只关注因变量(SalePrice)并且进行更深入的...
我们知道,正则项通过控制参数来防止过拟合的,下面以L2正则为例,看看怎么选择lambda,以及和偏差和方差之间的关系。 首先需要做的事,就是选择...