hadoop2.4.1搭建完全分布式集群

准备工具

1.32位ubuntu14.04.4虚拟机

2.jdk1.7版本和hadoop2.4版本(注意jdk的版本位数必须和ubuntu的系统位数相同，hadoop在官网下载的是版本从2.5起都是64位的，这里使用的是32位的系统，所以请下载2.5版本之前的版本，hadoop历史版本的下载地址:https://archive.apache.org/dist/hadoop/core/)

3.ubuntu系统安装ssh

sudo apt-get install openssh-server

开始搭建

1.创建hadoop用户

sudo addgroup hadoop   #创建hadoop用户组
sudo adduser -ingroup hadoop hadoop     #创建hadoop用户
sudo vim /etc/sudoers   #给hadoop用户添加权限，打开/etc/sudoers文件
                        #在root  ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL

2.安装JDK1.7和hadoop-2.4.1

1.将下载好的jdk1.7解压到/home/hadoop目录下,并重命名文件夹为jdk1.7

2.将下载好的hadoop解压到/home/hadoop目录下,并重命名文件夹为hadoop-2.4.1,在hadoop2.4.1文件夹下新建一个名为tmp的文件夹,用于NameNode、DataNode、JournalNode等存放数据的公共目录。

3.配置jdk和hadoop的环境变量

    gedit ~/.bashrc
    #追加以下内容到.bashrc中
export JAVA_HOME=/home/hadoop/jdk1.7
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/home/hadoop/hadoop-2.4.1
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

###查看hadoop位数的方法:
    cd $HADOOP_HOME/lib/native
    file  libhadoop.so.1.0.0
###此时可以从输出内容看到hadoop的位数

4.保存退出，执行下列命令使之生效

source /etc/profile

5.检测jdk和hadoop是否安装成功

java -version       #显示出版本信息则表示安装成功
hadoop version      #显示出版本信息则表示安装成功

###如果出现类似找不到java命令的错误,请重新配置环境变量，确保文件的路径都正确
###如果出现一些不可描述的错误，请确认你的jdk,hadoop,ubuntu都是相同的位数版本

3.配置hadoop

hadoop配置文件目录为/home/hadoop/hadoop-2.4.1/etc/hadoop/

1.在yarn-env.sh 和hadoop-env.sh文件中加上JDK路径

cd /home/hadoop/hadoop-2.4.1/etc/hadoop     #切换到配置文件目录
gedit hadoop-env.sh     #添加JDK路径    export JAVA_HOME=/home/hadoop/jdk1.7
gedit yarn-env.sh       #添加JDK路径    export JAVA_HOME=/home/hadoop/jdk1.7

2.配置 core-site.xml

#master为主机名，可以根据具体情况更改，只要是Master主机的主机名就ok

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
        <final>true</final>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hadoop/hadoop-2.4.1/tmp</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>

3.配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/hadoop-2.4.1/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/hadoop-2.4.1/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>    #数据副本数量，默认3，我们是两台设置2
        <value>2</value>
    </property>
</configuration>

4.配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

4.配置mapred-site.xml,该目录下没有该文件，存在一个名为mapred-site.xml.template的文件,该文件是mapred-site.xml的模板,复制该文件并重命名为mapred-site.xml

cp  mapred-site.xml.template    mapred-site.xml
##编辑mapred-site.xml配置以下内容

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

5.设置slaves

gedit slaves

#输入每个slave的主机名，也可设置ip地址，建议填写主机名，因为在具体环境中ip地址可能不固定，导致修改工作频繁
slave1
slave2

4.将该主机复制两份作为slave1和slave2,原主机为master,虚拟机请使用桥接模式联网。

5.配置对应Hosts记录，关闭iptables

1.关闭iptables

iptables -P INPUT ACCEPT  
iptables -P OUTPUT ACCEPT 
#若出现不可描述的错误，请百度ubuntu如何关闭防火墙

2.主机间相互ping通，请百度自行解决，该步骤必须完成才可进行之后的步骤

2.修改主机名

sudo gedit /etc/hostname
#将主机名改为master,其他两台分别改为slave1,slave2,!!!严格区分大小写。
#注销重新登陆使其生效

3.修改/etc/hosts

#第一行的127.0.0.1  localhost不修改,之后添加
master主机IP      master
slave1主机IP      slave1
slave2主机IP      slave2

6.配置SSH无密码登录(注：master本地也要实现无密码登录)

su - hadoop
ssh-keygen -t rsa
cd  /home/hadoop/.ssh/
#登陆两台slave创建.ssh目录  mkdir /home/hadoop/.ssh
#返回master将id_rsa.pub传输到两个slave下的/home/hadoop/.ssh文件夹下
scp /home/hadoop/.ssh/id_rsa.pub hadoop@slave1:/home/hadoop/.ssh/   #传输给slave1
scp /home/hadoop/.ssh/id_rsa.pub hadoop@slave2:/home/hadoop/.ssh/   #传输给slave2
#以下为每台主机都要进行的配置
cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys   #两台slave都执行该操作
chmod 600 /home/hadoop/.ssh/authorized_keys     #两台slave都执行该操作
chmod 700 /home/hadoop/.ssh/    ##目录权限必须设置700,两台slave都执行该操作
sudo gedit /etc/ssh/sshd_config     ##开启RSA认证,两台slave都执行该操作
    #将文件中出现的以下语句前的注释符#号去掉，保存
    RSAAuthentication yes
    PubkeyAuthentication yes
    AuthorizedKeysFile      .ssh/authorized_keys
service ssh restart

#测试无密码登陆
#在master主机上操作
#本地登录   ssh hadoop@master   ##未出现错误则表示成功，出错可能是主机名为修改为master,请用hostname命令查看主机名，若主机名正确，则是未正确安装ssh,执行 sudo apt-get install openssh-server
#登陆slave1   ssh hadoop@slave1   ##登陆成功终端会显示当前用户是hadoop@slave1  退出命令 exit()
#登陆slave2   ssh hadoop@slave2   ##同上

格式化文件系统并启动

1.格式化新的分布式文件系统

hdfs namenode -format

2.启动HDFS文件系统并使用jps检查守护进程是否启动

start-dfs.sh    #会输出各节点的启动信息
jps     #可以看到master已经启动NameNode和SecondaryNameNode进程,slave已经启动DataNode进程

3.启动新mapreduce架构（YARN）

start-yarn.sh
jps     #可以看到master已经启动ResourceManger进程，slave已经启动NodeManager

4.查看集群状态

hdfs dfsadmin -report

5.通过web查看资源（http://master:8088） or （http://master的IP:8088）

6.查看HDFS状态（http://master:50070）or （http://master的IP:50070）

Ubuntu配置和修改IP地址

修改配置文件/etc/network/interfaces

#auto eth0
#iface eth0 inet dhcp
auto eth0
iface eth0 inet static
address 192.168.120.130
gateway 192.168.120.2
netmask 255.255.255.0
dns-nameservers 192.168.120.2

.重启网络，使配置生效

sudo /etc/init.d/networking restart

最后编辑于：2017.12.04 12:50:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,108评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,699评论 1赞 296
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,812评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,236评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,583评论 3赞 288
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,739评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,957评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,704评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,447评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,643评论 2赞 249
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,133评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,486评论 3赞 256
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,151评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,108评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,889评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,782评论 2赞 277
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,681评论 2赞 272

hadoop2.4.1搭建完全分布式集群

hadoop2.4.1搭建完全分布式集群

1.创建hadoop用户

2.安装JDK1.7和hadoop-2.4.1

3.配置hadoop

4.将该主机复制两份作为slave1和slave2,原主机为master,虚拟机请使用桥接模式联网。

5.配置对应Hosts记录，关闭iptables

6.配置SSH无密码登录(注：master本地也要实现无密码登录)

1.格式化新的分布式文件系统

2.启动HDFS文件系统并使用jps检查守护进程是否启动

3.启动新mapreduce架构（YARN）

4.查看集群状态

5.通过web查看资源（http://master:8088） or （http://master的IP:8088）

6.查看HDFS状态（http://master:50070）or （http://master的IP:50070）

Ubuntu配置和修改IP地址

推荐阅读更多精彩内容