240 发简信
IP属地:福建
  • 【TF】如何快速预览并解析TFRecord数据

    大规模深度学习,快速处理和解析TFRecord已经是必备要求了,记录一下如何快速预览和解析TFRecord导入相关包 加载TFRecord(这里...

  • Resize,w 360,h 240
    [NLP] Doc2vec原理解析及代码实践

    Doc2vec段落向量的训练方法,与训练词向量类似,段落向量的训练分为训练数据预处理和段落向量训练两个步骤。 训练数据预处理:对段落进行分词处理...

  • Resize,w 360,h 240
    深入理解推荐系统:Position Bias

    Position Bias现象: 在排序结果中,排在前面的结果通常能获取更高点击率,如图1(a);对于同一个结果,排在不同的位置,点击率也有差异...

  • Resize,w 360,h 240
    Paper Reading 《Real-Time Machine Learning: The Missing Pieces》

    7R原则: 提出分布式在线学习计算框架应该具备的7个原则简称(7R): Performance Requirements:性能要求 R1: Lo...

  • Resize,w 360,h 240
    Paper Reading《The Dataflow Model- A Practical Approach to Balancing Correctness, Latency, and Cos...

    What is DataFlow ? 谷歌的Dataflow首先是一个为用户提供以流式或批量模式处理海量数据能力的服务: https://clo...

  • [Spark MLlib] MLlib基本数据类型(1)

    MLLib提供了一系列基本数据类型以支持底层的机器学习算法。主要的数据类型包括:标注点(Labeled Point)、本地向量(Local Ve...

  • Impala 实现在指定位置添加列

    今天在数据脱敏的工作中碰到一个需求:将数据仓库中的用户画像的phone字段以及该字段下的数据全部删除 1. 错误示范:impala里面直接删除该...

  • Linux user permission

    chgrp 命令 功能:改变文件或目录所属的组。 语法:chgrp [选项] group filename¼ 参数: -c或–changes ...

  • Linux mount disk

    Linux的硬盘识别: 一般使用”fdisk -l”命令可以列出系统中当前连接的硬盘 设备和分区信息.新硬盘没有分区信息,则只显示硬盘大小信息....

个人介绍
推荐系统|Python|Java|Spark|Hadoop|Web