• 120
    第二十一天 交叉验证

    到目前为止,为了评估我们的监督模型,我们使用 train_test_split 函数将数据集划分为训练集和测试集,在训练集上调用 fit 方法来...

  • 120
    第二十天 数据分箱

    什么是数据分箱 一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用lo...

  • 第十九天 One-Hot编码

    到目前为止,我们一直假设数据是由浮点数组成的二维数组,其中每一列是描述数据点的连续特征(continuous feature)。对于许多应用而言...

  • 第十八天 DBSCAN聚类

    这次我们学习DBSCAN聚类,DBSCAN的主要优点是它不需要用户实现设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点,DBS...

  • 120
    第十七天 凝聚聚类

    凝聚聚类是许多基于相同原则构建的聚类算法,基本流程是:首先声明每个点是自己的簇,然后合并两个最相似的簇,知道满足某种停止准则为止。scikit-...

  • 120
    第十六天 Kmean聚类

    我们前面说过, 聚类(clustering)是将数据集划分成组的任务,这些组叫作簇(cluster)。.其目标是划分数据,使得一个簇内的数据点非...

  • 第十五天 无监督学习入门

    本来应该写神经网络,但是关于神经网络的内容太多了,暂时先不写。接下来我们开始学习非监督学习的算法,在无监督学习中,学习算法只有输入数据,并需要从...

  • 120
    第十四天 使用决策树对乳腺癌进行分类

    对乳腺癌数据进行分类 这节的目标是用用决策树对乳腺癌数据进行分类,另外还会涉及到决策树的集成。根据之前学习到的知识我们能很容易写出以下分类代码 ...

  • 第十三天 什么是决策树

    原文地址 决策树是什么玩意 决策树是广泛用于分类和回归任务的模型。本质上,它从一层层的 if/else 问题中进行学习,并得出结论。 这些问题类...

个人介绍
即使是天方夜谭,倘若还有一丝希望,就去做,没什么大不了的