240 发简信
IP属地:浙江
  • 这些年,我工作上走过的路

    常常的,我会感恩于我所在的公司,让自己经历了种种。很多情况下,公司的成长带动了自己的成长。完整的跟着公司经历大数据业务从无到有,从有到精,这种历...

    0.3 7022 26 50 9
  • 作为程序员,你为什么会有【技术不重要论】

    为什么上到老板,下到技术人员本身都会产生【技术不重要论】,比如在座的是不是都有(或者曾经有)这些想法: “技术是不重要的(这才是私底下真实的想法...

  • Rust FFI 实践

    背景 部门算法团队开始成长起来,开始有越来越多的尝试以及成果,但是现在工程方面严重的限制了(主要是做预测服务)他们的研究成果转化为实际输出的能力...

  • Resize,w 360,h 240
    MLSQL Stack 一键体验

    体验地址:http://docs.mlsql.tech/mlsql-console/blog/demo.html 命令 在终端执行如下指令: 注...

  • 提交PR的git 流程

    前言 上次花了点时间让CarbonData集成到StreamingPro中,方便大家更快速的体验到CarbonData的好处,集成完毕后就写了篇...

  • 利用 Spark DataSource API 实现Rest数据源

    Spark DataSource API 的提出使得各个数据源按规范实现适配,那么就可以高效的利用Spark 的计算能力。典型如Parquet,...

  • 自定义Spark Partitioner提升es-hadoop Bulk效率

    前言 之前写过一篇文章,如何提高ElasticSearch 索引速度。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,S...

  • 如何提高ElasticSearch 索引速度

    我Google了下,大致给出的答案如下: 使用bulk API 初次索引的时候,把 replica 设置为 0 增大 threadpool.in...

    0.4 33339 15 40 1
  • 如何在Java应用里集成Spark MLlib训练好的模型做预测

    前言 昨天媛媛说,你是不是很久没写博客了。我说上一篇1.26号,昨天3.26号,刚好两个月,心中也略微有些愧疚。今天正好有个好朋友问,怎么在Ja...