240 发简信
  • faiss 使用

    添加faiss到python路径 参照官网: https://github.com/facebookresearch/faiss/wiki/Ge...

  • 120
    kafka问题集

    kafka官网: https://kafka.apache.org/090/documentation/#configuration case:...

  • 120
    Sqoop

    刚开始看《大数据知识体系讲解》, Sqoop一直在用,却没有好好了解过,Mark一下 概念 sql to Hadoop, 关系型数据库与hdoo...

  • 信息熵 GINI系数

    熵(entropy)在统计学中是一个很重要的概念,用于特征的选择,衡量结果的不确定性, 信息熵越小, 结果越简单。 信息熵的计算公式: 条件熵:...

  • xml-rpc

    RPC(Remote Procedure Call)就是相当于提供了一种“远程接口”来供外部系统调用,常用于不同平台、不同架构的系统之间互相调用...

  • java解析HTML工具Jsoup

    在处理网页形式的文本时, 刚开始使用了scala.xml来解析 这样对完整格式的xml文本处理的很好,但是有些xml形式并不完整,而且HTML格...

  • 120
    spark 数据倾斜

    转自: https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优 调优概述 有的时候,我们可能...

    0.2 665 1 11
  • Q:No space left on device

    http://www.linuxidc.com/Linux/2015-08/120940.htm shuffle的临时文件目录tmp挂载满了, ...

  • [转] Oracle的三种表连接方式

    http://blog.sina.com.cn/s/blog_475e7d8901011byi.html 在做表join的时候, Oracle有...