240 发简信
  • 120
    如何避免Spark SQL做数据导入时产生大量小文件

    什么是小文件? 生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存储于HDFS中小文件,即指文件...

  • 120
    Github+Jekyll 搭建个人网站详细教程

    GitHub搭建个人网站,大家在网上一搜能搜到一大把的教程,但是大部分都讲的差不多,并不能满足自己想搭建的网站详细需求。我之前在搭建本站的时候也是查了较多资料,学习了下jek...

  • Vue 自动获取本地ip,并打开浏览器

    我的原创地址:https://dongkelun.com/2019/03/28/vueAutoIpAndOpenBrowser/ 前言 功能如题,本文参考:https://w...

  • Vue版本Echarts中国地图三级钻取及Vue踩坑笔记

    我的原创地址:https://dongkelun.com/2019/02/18/vueEchartsMap/ 前言 这段时间又搞起了前端,用Vue做一个项目,前段时间用htm...

  • Spark 异常总结及解决办法

    我的原创地址:https://dongkelun.com/2019/01/09/sparkExceptions/ 前言 总结Spark开发中遇到的异常及解决办法,之前也写过几...

  • Linux 安装 oh-my-zsh

    我的原创地址:https://dongkelun.com/2018/12/29/linux-oh-my-zsh/ 前言 之前在大三实习的时候,用的纯Linux(Ubuntu)...

  • Spark SQL 优化笔记

    我的原创地址:https://dongkelun.com/2018/12/26/sparkSqlOptimize/ 前言 记录自己在工作开发中遇到的SQL优化问题 1、避免用...

  • Scala学习笔记

    我的原创地址:https://dongkelun.com/2018/12/14/scalaLearningNotes/ 前言 之前看Scala编程思想学习Scala,只看完了...

  • Hive分桶表学习总结

    我的原创地址:https://dongkelun.com/2018/12/07/hiveBucketTable/ 前言 学习总结一下Hive的分桶表。 分桶规则:对分桶字段值...

  • @云成鹏 哦哦,好的,我看看,谢谢

    Spark 通过 spark-submit 设置日志级别

    我的原创地址:https://dongkelun.com/2018/11/16/sparkSubmitLogLevel/ 前言 Spark有多种方式设置日志级别,这次主要记录...

  • @BIGUFO 看到了(func(context, rdd.iterator(partition, context))),谢谢!

    [spark] Checkpoint 源码解析

    前言 在spark应用程序中,常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RDD,此时我们可以考虑将这个RD...

  • @BIGUFO 柯里化,我知道,但是writePartitionToCheckpointFile方法用到Iterator这个参数了,我的意思是最终在哪里传给writePartitionToCheckpointFile方法的~,我看看runTask的源码去~

    [spark] Checkpoint 源码解析

    前言 在spark应用程序中,常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RDD,此时我们可以考虑将这个RD...

  • 您好,最近在看checkpoint源码,最后会调用sc.runJob(originalRDD,
    writePartitionToCheckpointFile[T](checkpointDirPath.toString, broadcastedConf) _),而 writePartitionToCheckpointFile这个方法有参数ctx: TaskContext, iterator: Iterator[T],serializeStream.writeAll(iterator),但我不知道这个参数是如何传给writePartitionToCheckpointFile函数,我看了sc.runJob这个方法的源码,看了好久也没看懂是怎么传的(也看了您的DAGScheduler 提交stage源码解析这篇),大佬能指点下么~

    [spark] Checkpoint 源码解析

    前言 在spark应用程序中,常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RDD,此时我们可以考虑将这个RD...

  • Spark操作Hive分区表

    我的原创地址:https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言 前面学习总结了Hive分区表,现在学习总结一下Sp...

  • Hive内部表和外部表

    我的原创地址:https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/ 前言 总结一下Hive的内部表和...

  • Hive分区表学习总结

    我的原创地址:https://dongkelun.com/2018/12/02/hivePartitionTable/ 前言 用了这么久的Hive,而没有认真的学习和使用过H...

  • Echarts中国地图三级钻取

    我的原创地址:https://dongkelun.com/2018/11/27/echartsChinaMap/ 前言 最近其实一直在用Echarts写前端,之前也想过总结一...

个人介绍
欢迎访问我的个人博客:https://dongkelun.com/

微信公众号:伦少的博客