Spark On YARN 集群安装部署

学习spark，记录下来搭建环境及软件版本，供大家使用

软件环境

Centos6.5
jdk1.7.0_79
hadoop-2.7.3
scala-2.10.4
spark-2.0.0-bin-hadoop2.7

0. 序

所有linux系统均在root用户下使用，目的是为了省去权限麻烦，所以一律采用root用户

1. 环境准备

修改主机名

我们将搭建1个master，1个slave的方案。首先修改主机名vi /etc/hostname，在master上修改为master，其中一个slave上修改为slave1。

配置hosts

在每台主机上修改host文件

vi /etc/hosts

10.1.1.107      master
10.1.1.108      slave1

配置之后ping一下用户名看是否生效

ping slave1

SSH 免密码登录

默认情况下，Centos6.5已经自带了Openssh server。如果没有的话，可以使用以下命令安装

apt-get install openssh-server

在所有机器上都生成私钥和公钥

ssh-keygen -t rsa   # 一路回车

需要让机器间都能相互访问，就把每个机子上的id_rsa.pub发给master节点，传输公钥可以用scp来传输。

scp ~/.ssh/id_rsa.pub root@master:~/.ssh/id_rsa.pub.slave1

在master上，将所有公钥加到用于认证的公钥文件authorized_keys中

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

将公钥文件authorized_keys分发给每台slave

scp ~/.ssh/authorized_keys root@slave1:~/.ssh/

在每台机子上验证SSH无密码通信

ssh master
ssh slave1

登陆后，如果想退出，则可以使用'

exit

关闭防火墙

由于多个端口的访问，所以最好在所有机器上关闭防火墙，生产环境则需要将端口号放入防火墙中

service iptables stop

结果如下

iptables：将链设置为政策 ACCEPT：filter [确定]
iptables：清除防火墙规则：[确定]
iptables：正在卸载模块：[确定]

2. 软件基础安装

安装 Java

从官网下载最新版 Java 就可以,在/usr/local目录下直接解压

tar -zxvf jdk-7u79-linux-x64.tar.gz

修改环境变量vi /etc/profile，添加下列内容，注意将home路径替换成你的：

export WORK_SPACE=/usr/local
export JAVA_HOME=$WORK_SPACE/jdk1.7.0_79
export JRE_HOME=/usr/local/jdk1.7.0_79/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

然后使环境变量生效，并验证 Java 是否安装成功。这里注意，source命令最好仅使用一次，因为多次使用会将路径复制多遍到Path下。

$ source /etc/profile   #生效环境变量
$ java -version         #如果打印出如下版本信息，则说明安装成功
java version "1.7.0_79"
Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)

安装 Scala

Spark官方要求 Scala 版本为 2.10.x，注意不要下错版本，我下载了 2.10.4版本同样我们在/usr/local目录下直接解压

tar -zxvf scala-2.10.4.tgz

再次修改环境变量vi /etc/profile，添加以下内容：

export SCALA_HOME=$WORK_SPACE/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

同样的方法使环境变量生效，并验证 scala 是否安装成功

$ source /etc/profile   #生效环境变量
$ scala -version        #如果打印出如下版本信息，则说明安装成功
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL

3. 安装配置 Hadoop YARN

下载解压

从官网下载 hadoop-2.7.3 版本同样我们在/usr/local解压

tar -zxvf hadoop-2.7.3.tar.gz

配置 Hadoop

cd /usr/local/hadoop-2.7.3/etc/hadoop进入hadoop配置目录，需要配置有以下7个文件：hadoop-env.sh，yarn-env.sh，slaves，core-site.xml，hdfs-site.xml，maprd-site.xml，yarn-site.xml。

1.在hadoop-env.sh中配置JAVA_HOME

# The java implementation to use.
export JAVA_HOME=/usr/local/jdk1.7.0_79

2.在yarn-env.sh中配置JAVA_HOME

# some Java parameters
export JAVA_HOME=/usr/local/jdk1.7.0_79

3.在slaves中配置slave节点的ip或者host

slave1

4.修改core-site.xml

<configuration>
 <property>
     <name>fs.defaultFS</name>
     <value>hdfs://master:9000/</value>
 </property>
 <property>
      <name>hadoop.tmp.dir</name>
      <value>file:/usr/local/hadoop-2.7.3/tmp</value>
 </property>
</configuration>

5.修改hdfs-site.xml

<configuration>
 <property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>master:9001</value>
 </property>
 <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/usr/local/hadoop-2.7.3/dfs/name</value>
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/usr/local/hadoop-2.7.3/dfs/data</value>
 </property>
 <property>
     <name>dfs.replication</name>
     <value>3</value>
 </property>
</configuration>

6.修改mapred-site.xml

<configuration>
 <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
 </property>
</configuration>

7.修改yarn-site.xml

<configuration>
 <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
 </property>
 <property>
     <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
     <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>
 <property>
     <name>yarn.resourcemanager.address</name>
     <value>master:8032</value>
 </property>
 <property>
     <name>yarn.resourcemanager.scheduler.address</name>
     <value>master:8030</value>
 </property>
 <property>
     <name>yarn.resourcemanager.resource-tracker.address</name>
     <value>master:8035</value>
 </property>
 <property>
     <name>yarn.resourcemanager.admin.address</name>
     <value>master:8033</value>
 </property>
 <property>
     <name>yarn.resourcemanager.webapp.address</name>
     <value>master:8088</value>
 </property>
</configuration>

8.将配置好的hadoop-2.7.3文件夹分发给所有slaves

scp -r /usr/local/hadoop-2.7.3 root@slave1:/usr/local/

启动 Hadoop

在 master 上执行以下操作，就可以启动 hadoop 了。

cd /usr/local/hadoop-2.7.3/sbin    #进入hadoop目录
./bin/hadoop namenode -format     #格式化namenode
./start-dfs.sh               #启动dfs 
./start-yarn.sh              #启动yarn

验证 Hadoop 是否安装成功

可以通过jps命令查看各个节点启动的进程是否正常。在 master 上应该有以下几个进程：

$ jps  #run on master
3407 SecondaryNameNode
3218 NameNode
3552 ResourceManager
3910 Jps

在每个slave上应该有以下几个进程：

$ jps   #run on slaves
2072 NodeManager
2213 Jps
1962 DataNode

或者在浏览器中输入 http://master:8088 ，应该有 hadoop 的管理界面出来了，并能看到 slave1 节点(目前看不到，没有找到原因).

4. Spark安装

下载解压

进入官方下载地址下载最新版 Spark。我下载的是 spark-2.0.0-bin-hadoop2.7.tgz。在/usr/local目录下解压

tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
mv spark-2.0.0-bin-hadoop2.7 spark-2.0.0    #原来的文件名太长了，修改下

配置 Spark

cd /usr/local/spark-2.0.0/conf    #进入spark配置目录
cp spark-env.sh.template spark-env.sh   #从配置模板复制
vi spark-env.sh     #添加配置内容

在spark-env.sh末尾添加以下内容（这是我的配置，你可以自行修改）：

export SCALA_HOME=/usr/local/scala-2.10.4
export JAVA_HOME=/usr/local/jdk1.7.0_79
export HADOOP_HOME=/usr/local/hadoop-2.7.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/spark-2.0.0
SPARK_DRIVER_MEMORY=1G

注：在设置Worker进程的CPU个数和内存大小，要注意机器的实际硬件条件，如果配置的超过当前Worker节点的硬件条件，Worker进程会启动失败。 vi slaves在slaves文件下填上slave主机名：

slave1

将配置好的spark-2.0.0文件夹分发给所有slaves

scp -r /usr/local/spark-2.0.0 root@slave1:/usr/local/

启动Spark

cd /usr/local/spark-2.0.0/sbin
./start-all.sh

验证 Spark 是否安装成功

用jps检查，在 master 上应该有以下几个进程：

$ jps
7949 Jps
7328 SecondaryNameNode
7805 Master
7137 NameNode
7475 ResourceManager

在 slave 上应该有以下几个进程：

$jps
3132 DataNode
3759 Worker
3858 Jps
3231 NodeManager

5. 运行示例

搭建成功后，我们可以直接运行spark自带的例子，进行验证

cd /usr/local/spark-2.0.0/bin
./run-example org.apache.spark.examples.SparkPi

运行结果:

16/09/15 22:24:19 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 149 ms on localhost (2/2)
16/09/15 22:24:19 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
16/09/15 22:24:19 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 2.156422 s
Pi is roughly 3.14159570797854
16/09/15 22:24:19 INFO server.ServerConnector: Stopped ServerConnector@24d95700{HTTP/1.1}{0.0.0.0:4040}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@4925d132{/stages/stage/kill,null,UNAVAILABLE}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@13dbe345{/api,null,UNAVAILABLE}

说明已经成功

7. spark shell使用示例

cd /usr/local/spark-2.0.0/bin
./spark-shell

随后会出现如下界面

Welcome to
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79)
Type in expressions to have them evaluated.
Type :help for more information.

终端测试

var data = Array(1,2,3,4,5)
var distData = sc.parallelize(data)
var totalSum = distData.reduce((a,b)=>a+b)
println(totalSum)

计算结果为15 继续计算

var mapRdd = distData.map(x=>x*2)
var totalSum = mapRdd.reduce((a,b)=>a+b)

计算结果：30

8.感激

感谢博客
Jark's Blog

最后编辑于：2017.12.05 05:48:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,907评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,546评论 1赞 289
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,705评论 0赞 238
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,624评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,940评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,371评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,672评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,396评论 0赞 195
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,069评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,350评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,876评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,243评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,847评论 3赞 231
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,004评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,755评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,378评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,266评论 2赞 259

Spark On YARN 集群安装部署

软件环境

0. 序

1. 环境准备

修改主机名

配置hosts

SSH 免密码登录

关闭防火墙

2. 软件基础安装

安装 Java

安装 Scala

3. 安装配置 Hadoop YARN

下载解压

配置 Hadoop

启动 Hadoop

验证 Hadoop 是否安装成功

4. Spark安装

下载解压

配置 Spark

启动Spark

验证 Spark 是否安装成功

5. 运行示例

7. spark shell使用示例

8.感激

推荐阅读更多精彩内容