6篇文章 · 4293字 · 1人关注
背景 有一个系统的业务正在膨胀中,某一些报表(报表数据在mysql中)数据量增长比较厉害,报表页面已经处于卡爆了的状态。中间经过mysql本身的...
背景介绍 我们的系统有一小部分机器学习模型识别需求,因为种种原因,最终选用了Spark MLlib来进行训练和预测。MLlib的Pipeline...
Graphx的实现代码并不多,这得益于Spark RDD niubility的设计。众所周知,在分布式上做图计算需要考虑点、边的切割。而RDD本...
在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog这个项...
题记: 这是我的第一篇技术博文,写得不好请多提意见。然后,感谢张志斌老师,毕业之前张老师帮助我解一些“神奇的bug”,现在毕业一个月,我终于自己...
文集作者