这部分主要是介绍回归树和组合: 回归树(cart)1、回归树(也可以叫做分类回归树),加入gbdt是回归树,但是根据最终的回归结果给一个阈值,也...
疑问: 为什么要分训练集、验证集、测试集? 为什么采用交叉验证? 交叉验证的应用场景是什么? 最终预测模型是怎么得到的? 预备知识:什么是超参数...
总体思路: 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。单因素研究:只关注因变量(SalePrice)并且进行更深入的...
1、 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好2、它能够处理很高维度的数据,并且不用做特征选择,因为特征子集是随机选择的3、在...
1、什么是随机森林?随机森林就是用随机的方式建立一个森林,在森林里有很多决策树组成,并且每一棵决策树之间是没有关联的。当有一个新样本的时候,我们...
知识预备:范数http://blog.csdn.net/shijing_0214/article/details/51757564 我们经常会听...
这部分主要是对前面学的知识点进行总结~~~ 1、我们如何来构造一个提升树分类器去做加权回归问题,这样每个实例都有一个有关重要性的权重?2、回到时...
1、对于树形结构为什么不需要归一化?答:数值缩放,不影响分裂点位置。因为第一步都是按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点...
1.思路:给定训练集后,假设特征之间都是互相独立的。(1)计算输入输出的联合概率分布(2)对于给定的输入x,利用贝叶斯原理求出后验概率最大的输出...