240 发简信
  • Pytorch 数据加载器: Dataset 和 DataLoader

    为什么要用? 习惯于自己实现业务逻辑的每一步,以至于没有意识去寻找框架本身自有的数据预处理方法,Pytorch的Dataset 和 DataLo...

  • Boosting

    序 boosting是集成学习中的一个大家族,本次记录boosting的相关概念以及与bagging的区别。 boosting思想 Boosti...

  • 120
    随机森林如何评估特征重要性

    序 集成学习模型的一大特点是可以输出特征重要性,特征重要性能够在一定程度上辅助我们对特征进行筛选,从而使得模型的鲁棒性更好。 随机森林中进行特征...

  • 随机森林如何处理缺失值

    序 RF中有相应的缺失值处理方法,本次记录其两种缺失值处理技巧 暴力填补 Python中的na.roughfix包提供简单的缺失值填补策略:对于...

  • Bagging与随机森林

    序 集成学习大类中常见的有两个子类:Bagging和Boosting。本次记录一下Bagging以及其代表模型RandomForest。 Bag...

  • 模型方差与偏差

    序 面试过程中经常会被问到关于方差和偏差的概念以及比对。 偏差 偏差度量了学习算法的期望预测值与真实结果间的偏离程度,也就是刻画了模型本身的拟合...

  • 集成学习

    序 本次以及后续几次博客将陆续记录关于集成学习模型的相关知识点。 Ensemble概述 集成学习 就是构造若干模型并用它们的(加权预测/投票)值...

  • 120
    决策树剪枝

    为何要剪枝 决策树递归地构建树,直到不能继续分裂下去为止,这样的树对于训练集可能拟合的较好,但对于训练集可能产生过拟合现象,原因是过多的考虑对训...

  • 120
    ID3、C4.5、CART

    序 其实不同的决策树学习算法只是它们选择特征的依据不同,决策树的生成过程都是一样的(根据当前环境对特征进行贪婪的选择)。 ID3算法的核心是在决...