240 发简信
IP属地:北京
  • one-hot encoding 与dummy encoding

    One-Hot编码和哑变量应该怎么用 考虑一个具有三个类别的离散型特征,采用One-Hot 编码后: 其中 因此有 从上面的公式可以看出,参数(...

  • How spark executes a job on the cluster

    In the cluster mode, when a j ob is submitted for execution, the j ob is...

  • zz-hive的基本原理

    原文链接:http://www.cnblogs.com/uttu/archive/2013/02/28/2936953.html 1、组件: 元...

  • Spark核心数据模型-RDD

    1:可以抽象地理解为一个大数组(Array)。这个数组是分布在集群上的,逻辑上RDD的每个分区是一个Partiton 2: 4种创建方式;2种操...

  • 离散化

    离散化指把连续型数据切分为若干“段”,也称bin,是数据分析中常用的手段。切分的原则有等距,等频,优化,或根据数据特点而定。在营销数据挖掘中,离...

  • 降维与度量学习

    1.kNN算法:给定测试样本,基于某种距离度量,找出训练集中与其最近靠近的k个训练样本,然后基于这k个邻居的信息进行预测.通常分类任务中,使用“...

  • Resize,w 360,h 240
个人介绍
机器学习、深度学习 l 大数据 hive hadoop spark | 人工智能 l 数理逻辑