Hadoop 2.x分布式集群部署

服务组件的规划

机器的配置需要根据实际情况考虑。由于我用的虚拟机，所以各个容量大小设置的都很低。* 注意：搭建分布式至少三台机器。 *

机器1	机器2	机器3
主机名：bigdata-00	主机名：bigdata-01	主机名：bigdata-02
内存大小：1G	内存大小：1G	内存大小：1G
CPU核数：1核	CPU核数：1核	CPU核数：1核
硬盘容量：15G	硬盘容量：15G	硬盘容量：15G

HDFS和YARN的服务规划和配置(hadoop版本-2.5.0)。因为NameNode、ResourceManager、SecondaryNameNode都是比较消耗内存的，所以放在不同的机器上可以减轻机器的负载；MRHistoryServer不消耗过多的内存可以任意放置。

机器1	机器2	机器3
NameNode	ResourceManager	SecondaryNameNode
DateNode	DateNode	DateNode
NodeManager	NodeManager	NodeManager
MRHistroyServer

克隆虚拟机及配置步骤

对克隆完成的虚拟机修改其主机名

先临时修改

[wulei@bigdata-00 ~]$ hostname bigdata-00

永久修改

[wulei@bigdata-00 ~]$ vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=bigdata-00

会发现 /etc/udev/rules.d/70-persistent-net.rules(记录了mac地址、网卡名等信息) 下有两条信息。可以选择清空这个文件夹，也可以删去其中一条，并在另外一条中修改mac地址和网卡名。我这里选择清空。

[root@bigdata-02 ~]# >/etc/udev/rules.d/70-persistent-net.rules

配置网卡信息，修改配置文件 /etc/sysconfig/network-scripts/ifcfg-eth0。几处重要的修改如下。配置完成后重启，ping外网测试。

HWADDR=00:0C:29:A8:EA:9D
IPADDR=192.168.200.7
NETMASK=255.255.255.0
GATEWAY=192.168.200.2
[root@bigdata-00 ~]# ping www.baidu.com
在配置文件 /etc/hosts 中添加主机名映射

192.168.200.5 bigdata-00
192.168.200.6 bigdata-01
192.168.200.7 bigdata-02

Hadoop集群的安装和配置

规划集群的安装目录。为了方便管理，一个集群的相同组件应该放在相同的目录。

[root@bigdata-00 ~]# mkdir /opt/app

一般操作不会一直在root用户下操作，因此修改这个目录的用户主。

[root@bigdata-02 ~]# chown wulei:wulei /opt/app
[root@bigdata-02 ~]# ll -d /opt/app
drwxr-xr-x 2 wulei wulei 4096 Oct 19 09:10 /opt/app

安装和配置JDK

[root@bigdata-01 opt]# tar -zxf softwares/jdk-8u101-linux-x64.tar.gz -C modules/
[root@bigdata-01 opt]# vim /etc/profile
##java7
export JAVA_HOME=/opt/modules/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile

解压Hadoop 2.5.0至app目录下。删除hadoop目录下share/doc(文档)目录，以节约磁盘空间。

[root@bigdata-01 opt]# tar -zxf softwares/hadoop-2.5.0.tar.gz -C app/
[root@bigdata-00 opt]# rm -rf app/hadoop-2.5.0/share/doc

指定运行hadoop各组件的JAVA_HOME路径。需要设置三个配置文件：hadoop-env.sh、mapred-env.sh、yarn-env.sh。

export JAVA_HOME=/opt/modules/jdk1.8.0_101

配置相关服务组件XML文件，其中包括指定哪台机器作为NameNode节点和NameNode文件存储的目录。

core-site.xml配置NameNode

        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://bigdata-00:8020</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/app/hadoop-2.5.0/data/tmp</value>
        </property>

在slaves文件中设置DataNode

192.168.200.5  bigdata-00
192.168.200.6  bigdata-01
192.168.200.7  bigdata-02

hdfs-site.xml配置SecondaryNameNode。把它部署在 bigdata-02 机器上。

        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>bigdata-02:50090</value>
        </property>

yarn-site.xml配置YARN。各个参数的解释：
yarn.resourcemanager.hostname 指定resoucemanager节点
yarn.nodemanager.aux-services 需要配置成mapreduce_shuffle才能运行mapreduce程序。
yarn.log.aggregation-enable 是否启动日志聚集功能。日志聚集是YARN提供的日志中央化管理功能，启动它可以将container和任务产生的相关日志文件上传到HDFS上(从而实现中央化管理功能)，默认情况下个日志文件是存储在各个NodeManager节点上的。
yarn.log.aggregation.retain-seconds 设置聚集日志在HDFS保存的时间(单位为秒)。

        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>bigdata-01</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.log.aggregation-enable</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>18000</value>
        </property>

mapred-site.xml配置mapreduce。各参数的解释：
mapreduce.framework.name 指定mapreduce的运行在什么框架上。默认值为本地。
mapreduce.jobhistory.address 指定MapReduce JobHistory Server地址。
mapreduce.jobhistory.webapp.address 指定MapReduce JobHistory Server Web UI地址。

        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>bigdata-00:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>bigdata-00:19888</value>
        </property>

先在一台机器上测试各个服务；然后分发配置文件到其他节点上；最后在其他节点上测试各个服务。注：如果不能正常启动服务，应该在logs下面查看相应的启动日志文件。

测试HDFS服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4402 Jps
4234 NameNode
4331 DataNode

测试HDFS能否创建目录、上传文件、读取文件。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -r /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -ls /
Found 1 items
drwxr-xr-x - wulei supergroup 0 2016-10-19 16:01 /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -put /etc/hosts /test/

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -text /test/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

测试YARN服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/yarn-daemon.sh start nodemanager
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4769 NodeManager
4887 JobHistoryServer
4234 NameNode
4331 DataNode

分发配置文件到其余两个节点并启动相应的服务，然后测试其余节点HDFS是否正常，和上面的步骤一样。

[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-01:/opt/app/hadoop-2.5.0/
[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-02:/opt/app/hadoop-2.5.0/

在管理界面查看所有namenode(bigdata-00:50070)

datanode.png
测试mapreduce能否跑在YARN集群上。需要注意jar包必须运行在namenode节点上，因为只有从该节点才能使用分布式文件系统的目录结构。在wb管理界面(bigdata-01:8088)查看mapreduce运行进度。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /test/ /test/out

yarn.png

在此检查各个节点运行的组件

zujian1.png

zujian2.png

zujian3.png

至此hadoop 2.5.0分布式集群搭建完毕

最后编辑于：2017.12.04 05:52:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,233评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,013评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,030评论 0赞 241
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,827评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,221评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,542评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,814评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,513评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,225评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,497评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,998评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,342评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,986评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,812评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,560评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,461评论 2赞 266

Hadoop 2.x分布式集群部署

服务组件的规划

克隆虚拟机及配置步骤

Hadoop集群的安装和配置

推荐阅读更多精彩内容