Spark中Worker源码分析(一)

Worker作为对于Spark集群的健壮运行起着举足轻重的作用,作为Master的奴隶,每15s向Master告诉自己还活着,一旦主人(Master》有了任务(Application),立马交给属于它的奴隶们(Workers),那么奴隶们就会数数自己有多少家当(比如内存、核数),量力而行地交给主人完成的任务,如果奴隶不量力而行在执行任务过程中不幸死了的话,作为主人的Master只会等待60s,如果奴隶在这生死攸关的紧要关头不理睬主人,那么主人只能认为它死了,那么就会把它抛弃了。下面,我们一起了解一下Worker究竟有哪些不为人知的故事。

1.家当(静态属性)

我们只列出一些重要的属性:
1.一个守护单线程的调度器用于在特殊的时间发送消息,执行的任务包括:向Master注册Worker信息、发送心跳信息、定期清理任务等。
private val forwordMessageScheduler =
ThreadUtils.newDaemonSingleThreadScheduledExecutor("worker-forward-message-scheduler")
2.一个独立的线程用于清理工作空间,执行任务:定期清理执行过程中创建的本地文件。
private val cleanupThreadExecutor = ExecutionContext.fromExecutorService(
ThreadUtils.newDaemonSingleThreadExecutor("worker-cleanup-thread"))
3.shuffle服务默认没有开启除非用户自己配置,之所以会开启外部的Shuffle服务,是为了避免Executor进程任务过重,导致不能为其他的Executor提供Shuffle数据,影响任务的执行。比如,如果使用YARN模式时,可以在yarn-site.xml文件中配置及其端口号,从而在NodeManger上开启Shuffle服务,减轻Executor的负担。
private val shuffleService = new ExternalShuffleService(conf, securityMgr)
4.一个masters的线程池。因为master注册Worker是一个阻塞操作,所以这个线程池必须能同时创建"masterRpcAddresses.size"大小的线程,这样我们就能将worker注册到所有的master上。
private val registerMasterThreadPool = new ThreadPoolExecutor(
0,
masterRpcAddresses.size,60L, TimeUnit.SECONDS,
new SynchronousQueueRunnable,
ThreadUtils.namedThreadFactory("worker-register-master-threadpool"))
5.worker连接master的最大次数为16次,前6次时间间隔为5-15s,后10次的时间间隔是30-90s,之所以这样设计的原因是避免所有的worker都在同样的时间内连接master,是不是感觉有点妙,嘿嘿
private val INITIAL_REGISTRATION_RETRIES = 6
private val TOTAL_REGISTRATION_RETRIES = INITIAL_REGISTRATION_RETRIES + 10

2.技能(方法)

由于Worker本质上是一个RpcEndpoint,所以我们按照它的生命周期进行介绍。如果不明白,请看文章

Spark Rpc通信源码分析 http://www.jianshu.com/p/5c2b4623d74d

1.构造函数就是Worker默认的构造器
2.onStart方法
<code>
//worker的启动
override def onStart() {
assert(!registered)
logInfo("Starting Spark worker %s:%d with %d cores, %s RAM".format(
host, port, cores, Utils.megabytesToString(memory)))
logInfo(s"Running Spark version ${org.apache.spark.SPARK_VERSION}")
logInfo("Spark home: " + sparkHome)
createWorkDir()
//如果用户已经配置外部的Shuffle,那么就启动该服务
shuffleService.startIfEnabled()
//该WebUI只仅限于Standalone模式下
webUi = new WorkerWebUI(this, workDir, webUiPort)
webUi.bind()
//将worker注册到master上,详情如下(1)
registerWithMaster()
metricsSystem.registerSource(workerSource)
metricsSystem.start()
//metricsSystem启动后,将worker的metrics的servlet handler添加到web ui
metricsSystem.getServletHandlers.foreach(webUi.attachHandler)
}
</code>
(1)将worker注册到master上的registerWithMaster()代码如下所示:
<code>
private def registerWithMaster() {
//如果work与master可能多次失去连接,所以不要尝试太多次的注册
registrationRetryTimer match {
case None =>
registered = false
//将woker注册到所有的master上返回一个Future的数组,详情如下(2)
registerMasterFutures = tryRegisterAllMasters()
connectionAttemptCount = 0
//一个单线程不定时向master发送注册信息
registrationRetryTimer = Some(forwordMessageScheduler.scheduleAtFixedRate(
new Runnable {
override def run(): Unit = Utils.tryLogNonFatalError {
Option(self).foreach(.send(ReregisterWithMaster))
}
},
INITIAL_REGISTRATION_RETRY_INTERVAL_SECONDS,
INITIAL_REGISTRATION_RETRY_INTERVAL_SECONDS,
TimeUnit.SECONDS))
case Some(
) =>
logInfo("Not spawning another attempt to register with the master, since there is an" +
" attempt scheduled already.")
}
}
</code>
(2)tryRegisterAllMasters代码如下:
<code>
//将worker注册到所有的master上面
private def tryRegisterAllMasters(): Array[JFuture[]] = {
masterRpcAddresses.map { masterAddress =>
registerMasterThreadPool.submit(new Runnable {
override def run(): Unit = {
try {
logInfo("Connecting to master " + masterAddress + "...")
//在Client的Rpc中根据master的systemname、address、endpointname返回一个master的远程引用
val masterEndpoint =
rpcEnv.setupEndpointRef(Master.SYSTEM_NAME, masterAddress, Master.ENDPOINT_NAME)
//调用master的远程引用将worker注册到master上
masterEndpoint.send(RegisterWorker(
workerId, host, port, self, cores, memory, webUi.boundPort, publicAddress))
} catch {
case ie: InterruptedException => // Cancelled
case NonFatal(e) => logWarning(s"Failed to connect to master $masterAddress", e)
}
}
})
}
}
</code>
3.onStop()方法,把关于Worker的一切都停止掉,比如线程、executors、drivers、shuffleService等
<code>
override def onStop() {
cleanupThreadExecutor.shutdownNow()
metricsSystem.report()
cancelLastRegistrationRetry()
forwordMessageScheduler.shutdownNow()
registerMasterThreadPool.shutdownNow()
executors.values.foreach(
.kill())
drivers.values.foreach(_.kill())
shuffleService.stop()
webUi.stop()
metricsSystem.stop()
}
</code>
还有一个很重要的receive方法,都放到这儿可能有点拥挤,留到下一篇吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 161,326评论 4 369
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,228评论 1 304
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,979评论 0 252
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,489评论 0 217
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,894评论 3 294
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,900评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,075评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,803评论 0 205
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,565评论 1 249
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,778评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,255评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,582评论 3 261
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,254评论 3 241
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,151评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,952评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,035评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,839评论 2 277

推荐阅读更多精彩内容