HaloZhang - 简书

HaloZhang

IP属地：贵州

K-Means聚类算法理论与代码实践
简介 K均值聚类，也叫做K-Means Clustering，是一种著名的用于分类问题的无监督机器学习聚类算法。聚类是针对给定的样本，依靠它们...

0.5 2079 0 6
集成学习——Bagging和Boosting
简介集成学习，顾名思义就是将多种学习器或算法结合在一起，共同做出决策。这符合人类集思广益的做法，在业界也是应用最为广泛的方法之一。注意，集成学...

0.1 1725 0 1

机器学习中的特征工程（五）---- 特征选择方法
简介大概是今年6月份参加微信大数据挑战赛的时候，我才开始认识到特征选择也是机器学习中非常重要的一环。在诸如CTR等比赛中，原始特征往往是不足以...

0.3 3343 0 6
ID3、C4.5、CART决策树生成算法总结
简介决策树模型是最常见的机器学习方法之一，也是入门机器学习必须掌握的知识。决策树模型呈现树形结构，在分类问题中，表示基于特征对实例进行分类的过...

0.3 1673 0 5
机器学习中的特征工程（四）---- 特征离散化处理方法
简介特征离散化指的是将连续特征划分离散的过程：将原始定量特征的一个区间一一映射到单一的值。离散化过程也被表述成分箱（Binning）的过程。特...

0.7 7168 0 8
机器学习中的特征工程（三）---- 序数和类别特征处理方法
简介本文主要说明特征工程中关于序数特征和类别特征的常用处理方法。主要包含LabelEncoder、One-Hot编码、DummyCoding、...

0.1 1586 0 2
朴素贝叶斯（Naive Bayes）算法理论与实践
简介朴素贝叶斯(naive Bayes)算法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输...

0.1 5420 0 1

机器学习中的特征工程（二）---- 数值类型数据处理
简介在介绍比较复杂的数据类型比如图像和文本数据类似之前，我们首先从最简单的数据类似开始，即：数值类型。我们收集到的数据中，数值类型数据占据了大...

0.1 714 0 2
机器学习中的特征工程（一）---- 概览
前言上个月参加了微信大数据挑战赛，由于是第一次参加类似的比赛，并没有什么经验，最终也没有进复赛。不过在这期间还是学到了很多知识，尤其是特征处理...

1.1 1431 0 7