240 发简信
  • 120
    Spark Streaming 实现原理

    Spark Streaming 实现思路 Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表述: 可以看...

    7.8 368 0 14
  • RDD or DF获取分区编号和数据

    思考: RDD的分区怎么获取?RDD分区怎么根据数据划分分区? 例如: 首先看一下parallelize方法 1.分发一个本地Scala集合来形...

    0.3 91 0 3
  • Spark 算子探究

    map 首先我们看看map的源码 1.withScope的作用是:首先是根据堆栈信息(Thread.currentThread.getStack...

  • 120
    JVM

    前言 JVM与计算机内存设计类似,都有一块主内存,不过JVM是以线程形式运行。 JVM执行一段代码流程 1.通过类装载系统加载字节码信息存入内存...

    0.3 15 0 1
  • 剖析Spark二次排序

    什么是二次排序 指的是在Reduce阶段对某个键关联的值排序。 解决方案 解决方案至少有两种以上,但是首先要考虑一个问题,既然使用spark或者...

    0.3 98 0 1
  • Spark学习笔记(6)性能调优

    1.调节并行度 并行度是指各个stage中task的数量。1)官方推荐,task数量设置成spark application总cpu core数...

    0.5 44 0 3
  • 120
    Spark学习笔记(5)Shuffle源码分析

    概述 RDD作为Spark对各种数据计算模型的同一抽象,被用于迭代计算过程以及任务结果的缓存读写。在MR模型中,shuffle是map到redu...

  • 120
    Spark学习笔记(4)作业执行源码分析

    Rdd Action算子通常都会执行runJob例如: 接着SparkContext又调用了重载的runJob 接着运行dagScheduler...

    0.3 80 0 3