240 发简信
  • 让关系型数据库查询再飞一会儿

    背景 有一个系统的业务正在膨胀中,某一些报表(报表数据在mysql中)数据量增长比较厉害,报表页面已经处于卡爆了的状态。中间经过mysql本身的...

  • 让Spark MLlib的预测性能再飞一会儿

    背景介绍 我们的系统有一小部分机器学习模型识别需求,因为种种原因,最终选用了Spark MLlib来进行训练和预测。MLlib的Pipeline...

  • 上帝的骰子游戏

    概率是一个很有意思的东西,通过上帝投掷出来的骰子,你能猜到上帝的意图。这是一篇白话瞎文,并不是特别严谨。 概率的两大学派 概率有两大学派:概率学...

  • word2vec在学历造假中的探索

    前言 如果你想了解word2vec的原理,这篇文章并不适合你,出门右转用google。 这篇文章的东西含金量不高,希望搞NLP,ML,DL的专业...

  • 变参调用:scala和java的一个不同点

    scala和java几乎没有区别,可以互相调用。注意这里说的是几乎,总有那么少数,出人意料的惊喜在告诉你,scala就是scala。 一个例子 ...

  • Graphx 源码剖析-图的生成

    Graphx的实现代码并不多,这得益于Spark RDD niubility的设计。众所周知,在分布式上做图计算需要考虑点、边的切割。而RDD本...

  • 120
    Flume介绍

    声明 我对Flume的研究并不深,这一篇文章来源于2016年3月的某一个下午对Flume的调研,仅有一个下午,所以可能有一些观点是不对的。另外,...

  • Spark OFF_HEAP

    在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog这个项...

  • 120
    spark streaming应用一个越跑越慢的bug

    题记: 这是我的第一篇技术博文,写得不好请多提意见。然后,感谢张志斌老师,毕业之前张老师帮助我解一些“神奇的bug”,现在毕业一个月,我终于自己...

个人介绍
chengqiangboy.github.io