Docker搭建Hadoop集群

在学习Hadoop过程中,想要搭建Hadoop分布式集群,往往需要几台服务器或者再一台机器上搭建几台虚拟机;这两种方式搭建Hadoop集群都不是很方便,个人很少自己拥有几台服务器,或者电脑内存够大可以同时跑多个虚拟机。

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。

自从了解了Docker之后,感觉这哥们就是搭建环境的神器,从此告别虚拟机,一些基础的服务如Redis、Mongo、MQ都可以通过容器来搞定。当然虚拟机也有虚拟机的优势。本文主要是对docker的简单应用,复杂虚拟化的东西不在本次讨论范围。
Docker容器技术可以很方便的构建Hadoop镜像,再根据Hadoop镜像同时创建多个Hadoop容器,从而非常容易的搭建Hadoop完全分布式集群环境。

一、创建部署Hadoop的基础环境

首先基于centos6.6的镜像创建一个基础linux服务环境,命令如下:

docker run -it --name hadoop-basenv -v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data centos:6.6 /bin/bash

--name 会为容器指定名字,-v 会将本地文件夹挂载到容器的执行文件夹中,本文是/home/lingy/data

在创建好的容器中安装Hadoop相关基础环境,安装JDK、配置SSH免密登陆;由于容器是非常纯净的centos6.6所以很多软件都没有安装,需要安装一下。

安装Vim

执行 yum search vim 搜索vim相关软件,并安装vim-enhanced

yum install vim-enhanced
安装vim

安装SSH

免密登陆时需要用到ssh服务
同理搜索ssh yum search ssh 并安装openssh-server和openssh-clients

yum install openssh-server -y
yum install openssh-clients -y
安装SSH

安装Service

后边会通过service的方式启动ssh服务

yum install initscripts

安装JDK

从jdk官网现在rpm安装包jdk-8u161-linux-x64.rpm 放到本地文件夹/Users/lingy/Downloads/demo/docker/data下,由于创建容器时将此文件夹挂载到容器的/home/lingy/data下,所以在/home/lingy/data文件夹下可以找到jdk安装包,通过这种方式可以在宿主机和容器之间共享数据;为了避免不必要的麻烦,这里将安装包复制到另一个本地文件夹内,执行命令安装jdk。

rpm -ivh jdk-8u161-linux-x64.rpm
find / -name "rt.jar"

由于是默认安装所以执行find / -name "rt.jar"查找一下jdk的安装目录/usr/java/jdk1.8.0_161,方便之后配置环境变量使用

安装JDK

以上已经在linux的基础上完成了相关基础软件的安装,接下来将要配置环境、安装Hadoop,下面做基础配置

配置ssh免密登陆

Hadoop集群环境中,master启动的时候需要访问控制其他节点,不使用ssh免密登陆会很麻烦每次都需要登陆。所以通过ssh做免密登陆。
通过ssh-keygen生成公钥和私钥加密文件,再将公钥文件考入authorized_keys中

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

启动ssh服务,并通过ssh免密登陆本机,查看/etc/hosts查看本机host

service sshd start
ssh ab3661a64168(本地host)
SSH免密登陆

配置JDK环境变量

打开/etc/profile文件配置环境变量

JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin

export JAVA_HOME JRE_HOME CLASSPATH PATH

source /etc/profile 使环境变量立即生效,如下图:

配置JDK环境变量

二、安装Hadoop

到官网上下载Hadoop安装包,依然是放在本地目录共享文件夹下,本例中使用的是hadoop-2.7.3

安装并配置Hadoop

进入/usr/local文件夹创建一个hadoop文件夹,将下载好的hadoop-2.7.3.tar.gz解压,复制到hadoop文件加下

安装Hadoop

配置hadoop环境变量,编辑/etc/profile文件 vim /etc/profile 内容如下:

JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre

HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3/
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME PATH

修改环境变量之后需要使环境变量生效,执行source /etc/profile,之后执行hadoop,环境变量配置成功效果如下图:

Hadoop环境变量

hadoop环境变量配置成功之后,需要进入到hadoop_home同级目录下为hadoop创建几个工作目录。

cd /usr/local/hadoop/
mkdir tmp
mkdir -p hdfs/name
mkdir hdfs/data

如果在不存在的hdfs文件夹下边创建name文件夹会失败;这里使用-p参数,在创建name文件的时候会连同上级目录hdfs一起创建

修改Hadoop相关配置文件

要想真正的运行hadoop应用还需要修改hadoop运行参数;进入/usr/local/hadoop/hadoop-2.7.3/etc/hadoop文件夹,需要修改的可执行文件与配置文件包括:hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。

修改hadoop-env.sh

vim hadoop-env.sh注释掉原有的配置export JAVA_HOME=${JAVA_HOME},修改成当前的JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/

hadoop-env.sh
修改yarn-env.sh

vim yarn-env.sh同样是重新指定JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/

yarn-env.sh
修改core-site.xml
<configuration>
        <property>
                <name> fs.default.name </name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/hadoop/tmp</value>
        </property>
</configuration>
修改hdfs-site.xml
<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/hdfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/hdfs/data</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
                <description>副本个数(每个本分割的文件会存储在几台datanode上,默认是3),这个数量应该小于datanode机器数</description>
        </property>
        <property>
                <name>dfs.permissions.enabled</name>
                <value>false</value>
        </property>
</configuration>
修改mapred-site.xml

在/usr/local/hadoop/hadoop-2.7.3/etc/hadoop目录下没有mapred-site.xml但是有一个文件mapred-site.xml.template;执行cp mapred-site.xml.template mapred-site.xml复制一个,修改内容如下:

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                <description>mapreduce's framework is yarm</description>
        </property>
</configuration>
修改yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>master</value>
                <description>yarn resourcemanager hostname is master</description>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>just mapreduce_shuffle can run MapReduce</description>
        </property>
</configuration>
修改slaves

增加datanode节点的hostname

node1
node2
node3

以上就是完整的安装hadoop及修改hadoop配置,接下来我们会根据制作好的容器创建一个本地镜像,再根据这个镜像构建Hadoop分布式集群

基于当前容器提交一个镜像版本,并构建构建Hadoop分布式集群

docker ps查看目前运行的容器,找到我们刚刚制作好的容器hadoop-basenv的IDab3661a64168。通过hadoop-basenv制作一个新的镜像

docker commit ab3661a64168 lingy/hadoop-distributed-base

通过docker images可以看到我们新制作的镜像

hadoop-basenv
通过新的镜像lingy/hadoop-distributed-base构建Hadoop分布式集群

创建master(namenode节点)

docker run -it --name hadoop-master \
-p 50010:50010 \
-p 50020:50020 \
-p 50070:50070 \
-p 50075:50075 \
-p 50090:50090 \
-p 8020:8020 \
-p 9000:9000 \
-p 10020:10020 \
-p 8030:8030 \
-p 19888:19888 \
-p 8031:8031 \
-p 8032:8032 \
-p 8033:8033 \
-p 8040:8040 \
-p 8042:8042 \
-p 8088:8088 \
-p 49707:49707 \
-p 2122:2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h master lingy/hadoop-distributed-base /bin/bash

创建node1(datanode节点),node2、node3同理,注意容器的名字--name hadoop-node1和host的名字-h node1

docker run -it --name hadoop-node1 \
-p 50010 \
-p 50020 \
-p 50070 \
-p 50075 \
-p 50090 \
-p 8020 \
-p 9000 \
-p 10020 \
-p 8030 \
-p 19888 \
-p 8031 \
-p 8032 \
-p 8033 \
-p 8040 \
-p 8042 \
-p 8088 \
-p 49707 \
-p 2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h node1 lingy/hadoop-distributed-base /bin/bash

到这里分布式的hadoop集群环境已经准备好了,但是要真正运行,还需要做一些细微的设置,如下:

  1. 在master的hosts文件里配置node1~3的地址信息,在node节点hosts上配置master的地址信息。因为启动hadoop是,会访问node节点
  2. 如果是重启了docker容器,需要执行 source /etc/profile 来使hadoop环境变量生效
  3. 检查ssh服务是否启动,如果没启动需要执行service ssd start启动ssh服务

完成以上操作后在master上执行start-all.sh启动hadoop(==注:==如果是第一次启动hadoop,需要先执行hadoop namenode -format);停止hadoop执行stop-all.sh
启动成功之后分别在master和node节点上执行jps -l命令,如下图:

master
node

在地址栏上访问http://localhost:50070/

Overview

Datanodes

推荐阅读更多精彩内容