Avatar notebook default
29篇文章 · 45212字 · 0人关注
  • Resize,w 360,h 240
    文本分词/检索

    背景 最近要做一个把客服电话录音全部识别成文字,然后分词,做一个词频统计! 具体步骤 语音识别成文字 ->文字检索,分词 ->词频统计 ->输入...

  • Resize,w 360,h 240
    数据质量:永远的痛

    数据质量,永远的痛啊,我目前就被数据质量折磨的很恶心.如果不真实接触这个,是永远无法知道它的痛的! 比如:没有统一计算口径,后台和数据部门对于同...

    0.8 804 0 12
  • Hive数据仓库建设

    之前楼主在一家大型P2P公司,这是我们的数据仓库建设,分享给大家! 1.为什么要数据仓库 2.数据仓库的好处 3.数据仓库建设 4.数据仓库中会...

    1.3 2760 6 17
  • Resize,w 360,h 240
    CDH安装

    1.环境版本 CDH: 5.12.0 Centos: 6.9 节点:hadoop101(主): 6G,8核,50G磁盘, hadoop102:...

  • Resize,w 360,h 240
    Pycharm破解

    简单粗暴,可用 1.下载Pycharm 网址链接: https://www.jetbrains.com/pycharm/download/#s...

  • hive动态分区等脚本

    最近终于有点时间了,不容易啊, 下次给大家分享点Azkaban怎么调度,脚本里面定制化参数,整个数据的流入,流出,到数据的展示一整套架构, hi...

  • 文本、语音相似度算法

    背景与原理 前段时间公司项目用到了语音识别,图像识别,视频识别等,其实不能说是识别,应该说是相似度对比吧,毕竟相似度对比还上升不了到识别哈,等以...

  • 协同过滤-ALS算法

    ALS算法应用场景 ALS属于数据挖掘,可以做推荐系统,比如电影推荐,商品推荐,广告推荐等. 原理就是给各个指标,判定等加权重,然后将这些训练集...

  • Hbase设计原则

    Hbase存储架构 Hbase通过元数据信息来管理,数据都是通过ReginServer存储在HDFS上 Hbase是列式存储,以rowkey做唯...

文集作者