Spark入门指南 III - Spark集群化与Hibench测试集

文章也同时在个人博客 http://kimihe.com/更新

引言

"Apache Spark™ is a fast and general engine for large-scale data processing."

Spark是一种高性能分布式计算框架。它基于RDD使用内存来加速迭代过程。相比于前辈Hadoop，Spark有着更好的性能表现，尤其针对Machine Learning此类典型的应用，提升更为显著。

作为入门指南的第三篇，本文将集中介绍如何使用IntelliJ IDEA进行开发。
前文：

集群化

Spark集群化部署的思路与Hadoop非常类似。关于Hadoop集群化的配置可以参考这篇文章: 《Hadoop真分布式集群最速搭建攻略》。

配置worker节点

主要是对于Spark-2.2.0根目录下conf子目录中slaves.template的配置，重命名去除.template后缀，并添加worker节点的IP或hosts信息：

# For Cluster
10.10.43.131
10.10.43.132

Hibench

配置SparkBench

关于Hibench(含HadoopBench及SparkBench)，其实之前已经有一篇关于HadoopBench的文章: 《Hadoop常用测试集HiBench配置指南》。值得庆幸的是，SparkBench在配置上与前者并没有特别的变化，只要建立在HadoopBench配置的基础上，SparkBench的配置非常简单，无非是配置各类根目录之类。
关于SparkBench配置的官方介绍: Run SparkBench。

conf的高级配置

Hibench根目录下conf子目录下，有一系列配置文件可以按需求修改。常用的有：

framework.lst
benchmark.lst
hibench.conf
hadoop.conf.template(激活需去除.template后缀)
spark.conf.template(激活需去除.template后缀)

注意：其中的framework.lst可选择hadoop或spark模式，以此来决定benchmark.lst中列出的应用是运行HadoopBench还是SparkBench。
此外Spark运行时对于内存消耗较多，如遇到内存不足的警报，可配置spark.conf相关选项，以控制内存消耗，如：

# executor and driver memory in standalone & YARN mode
spark.executor.memory  2g
spark.driver.memory    2g

更多高级配置可查阅官方Wiki。

修改Hibench源码

Hibench根目录下的hadoopbench及sparkbench中包含各种测试程序的源代码，可根据需求修改。例如，修改了sparkbench下micro的wordcount源码，则可以重新编译Hibench的micro模块，来使用新生成的wordcount测试程序。编译命令如下：

mvn -Psparkbench -Dmodules -Pmicro -Dspark=2.1 -Dscala=2.11 clean package

请注意对照命令中Spark与Scala的版本号。
另详细的编译命令介绍可查阅官方链接: Build HiBench。

运行一个测试程序

此处仍以Spark的wordcount为例：

 bin/workloads/micro/wordcount/prepare/prepare.sh
 bin/workloads/micro/wordcount/spark/run.sh

详细运行命令介绍可见: Run SparkBench.

至此，最基本的“Spark集群化与Hibench的SparkBench”介绍完毕。

总结

作为Spark入门指南的第三篇，本文介绍了如何配置集群化的Spark，以及使用SparkBench进行测试。
下一篇笔者将抛砖引玉地介绍Spark源码的阅读，修改，编译，debug，打包，测试等过程。

最后编辑于：2018.01.25 20:54:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,233评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,013评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,030评论 0赞 241
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,827评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,221评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,542评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,814评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,513评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,225评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,497评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,998评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,342评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,986评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,812评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,560评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,461评论 2赞 266