我们先来看看Hadoop源码中对DFS Client的注释说明: 显然,DFSClient在DistributedFileSystem和Name...
本文要求读者了解DAGScheduler如何划分一个作业的stages。本文主要内容是作者个人关于spark在提交多个作业时,stage划分的一...
这里,我们省略hadoop源码导入eclipse的过程。在上一篇我们寻找main()函数的文章,我们可以看到,脚本文件启动hdfs的过程分两步,...
【至于我为什么要写这一系列文章,目的为“缝合”,即把别人的知识枝丫缝合到自己的知识主干上,把别人的东西化为自己的东西。通俗地说,就是要写出来。当...
NOTE:本文要求读者对spark的运行原理有基本的了解。 需要明确的一点是,abort不同于fail。如果一个stage fail了,那么它还...
闲话少叙,言归正传。这次,我们从"-ls /"命令入手,窥探一下hdfs。hdfs模块提供了一个org.apache.hadoop.fs.FsS...
本文想探讨的问题有两个: 如果我们在synchronized代码块中创建一个Future会发生什么? 如果我们在创建Future的代码块中加sy...
Note:本文要求读者对UnifiedMemoryManager的原理有基本的了解。希望读者能与作者一起探讨。 本文试图分析UnifiedMem...
我以近十天的编译Spark的痛苦经历,来分享一下如何在国内快速的完成Spark编译。 其实,唯一的任务就是将Spark中的默认maven中央仓库...