• 120
    hadoop常见的面试题

    一、hdfs上传和下载文件流程 hdfs上传 客户端向namenode发出请求建立通信获得存储文件块的datanode节点,然后客户端将文件按照...

  • 120
    hadoop设计原理

    一、hadoop概念 Hadoop由两部分组成,一是负责存储与管理文件的分布式文件系统HDFS、二是负责处理与计算的MapReduce的计算框架...

  • DAGScheduler源码分析(stage划分算法)

    DAGScheduler的stage划分算法总结:会从触发action操作的那个rdd开始反向解析,首先会为最后一个rdd创建一个stage,反...

  • 120
    Spark性能优化之shuffle性能优化

    1.没有开启consolidation机制的性能低下的原理剖析 2.开启consolidation机制的性能低下的原理剖析 new SparkC...

  • Spark性能优化之数据本地化

    一、数据本地化背景 数据本地化对于Spark job性能有着巨大的影响。如果数据以及要计算它的代码一起的,那么性能当然非常高,但是,如果数据和计...

  • 120
    Spark性能优化之提高并行度

    实际上Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度,来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 S...

  • 120
    Spark性能优化之Java虚拟机垃圾回收调优

    一、Java虚拟机垃圾回收调优的背景 如果在持久化RDD的时候,持久化了大量数据,那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈。因此Jav...

  • 120
    Spark性能优化之RDD持久化或Checkpoint

    1.使用序列化的持久化级别 除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能。因为很有可能,RDD的数据是持久化到内存,或者磁盘...

  • Spark性能优化之优化数据结构

    一、前言 其实主要就是优化算子函数,内部使用到局部数据,或是算子函数外部数据,都可以进行数据结构优化,优化之后,都会减少其对内存的消耗和占用。 ...

个人介绍
愿你有前进一寸的勇气,亦有后退一尺的从容。