remychan - 简书

remychan

IP属地：北京

one-hot encoding 与dummy encoding
One-Hot编码和哑变量应该怎么用考虑一个具有三个类别的离散型特征，采用One-Hot 编码后：其中因此有从上面的公式可以看出，参数(...

1567 0 0
How spark executes a job on the cluster
In the cluster mode, when a j ob is submitted for execution, the j ob is...

141 0 0

zz-hive的基本原理
原文链接：http://www.cnblogs.com/uttu/archive/2013/02/28/2936953.html 1、组件：元...

412 0 0
Spark核心数据模型-RDD
1：可以抽象地理解为一个大数组（Array）。这个数组是分布在集群上的，逻辑上RDD的每个分区是一个Partiton 2： 4种创建方式；2种操...

398 0 0
离散化
离散化指把连续型数据切分为若干“段”，也称bin，是数据分析中常用的手段。切分的原则有等距，等频，优化，或根据数据特点而定。在营销数据挖掘中，离...

1017 0 1
降维与度量学习
1.kNN算法：给定测试样本，基于某种距离度量，找出训练集中与其最近靠近的k个训练样本，然后基于这k个邻居的信息进行预测.通常分类任务中，使用“...

345 0 0
我的宝贝

134 0 0