在阿里云上搭建 hadoop 集群

image.png

首先 先看一篇已经非常完备的阿里云搭建hadoop集群的文章,我也是参考这篇文章来的。

https://yq.aliyun.com/articles/61009

我们前期在阿里云的机器一共六台 ,一台 hadoop namenode,四台hadoop DataNode,还有一台 kafka 集群。五台机器的硬件配置为单机 4 vCPU,16G,10T,
一台kafka 机器为4 v Cpu,16G,500G.安装的hadoop 版本 为 2.8.1版本,java 版本为 jdk1.8,为了以后搭建spark ,scala 采用的是2.11版本,spark 版本为 2.01。
得知 丁香园 使用 物理云主机 15个节点 一台大概 32核 196G/256G 内存, 6*12T 磁盘。还有就是使用kebunete管理上前台

主要内容就是
1.全部 都安装 java scala hadoop 并配置 root 用户下的环境变量 /etc/profile
通过 java -version / jps / hadoop version 测试变量是否生效,注意使用 source /etc/profile
2.所有节点都配置主机名,并把所有的私有ip 及对应的主机名配置到各个节点的/etc/hosts 文件中
3.各个节点都创建 hadoop 用户 ,并设置密码,并在 hadoop 对应的 ~/.bashrc文件中设置 java scala hadoop 的环境变量,source ~/.bashrc 使之生效
4.格式化硬盘 并挂载到 服务器上, 这个可以使用脚本 自动化 格式和挂载,
5.配置 从hadoop Master到 hadoop DataNode的 ssh 免登陆 服务.ssh-copy-id
6.根据实际硬件和网络情况 配置 hadoop的四个 site.xml文件和两个 env.sh文件,并把
hadoop目录的权限 授予 hadoop 用户,否则 无法在 hadoop的根目录上无法创建 /logs目录,无法正常启动hadoop,并把在NameNode的配置文件 传递到 DataNode的配置文件目录中,基于方便未来集群管理 ,简化复杂个性化配置, java scala hadoop的 根目录 各个节点的配置路径一定要相同。

scp -r /usr/local/hadoop/etc/hadoop/*.sh  192.168.255.154:/usr/local/hadoop/etc/hadoop/

scp -r /usr/local/hadoop/etc/hadoop/*-site.xml 192.168.255.154:/usr/local/hadoop/etc/hadoop/

chown -R hadoop:hadoop /usr/local/hadoop

7.格式化 NameNode ,一定要格式化两次,不然还是会失败的,必须出现交互提问 yes 、no,./hdfs namenode -format
8.关闭几个端口的防火墙,8020 9000 50070 50075 10888 8088这些端口,hdfs 相关端口
9.启动hadoop 并测试hadoop 各项功能是否正常访问 和运行。
10.通过其他服务器的logstash 使用webhdfs output 测试写入到该机器hdfs是否可行。

webhdfs
user:必须填写启动hdfs的用户名
必须在logstash所在的服务器上的/etc/hosts配置hdfs集群节点路由列表
logstash 配置文件中的output webhdfs 的path 一定要定位到文件而不是目录

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

也可以使用postman 工具 来测试连接,查看webhdfs是否启动成功
http://www.linuxidc.com/Linux/2014-06/102792.htm
http://blog.csdn.net/dong_18383219470/article/details/70190313

11.使用 hadoop 的distcp 测试 集群内部 和集群间的分布式copy是否成功

在搭建中出现的一些问题
1.创建 hadoop 用户 不完全成功,注意密码 不要 简单否则 ssh使用hadoop 容易被黑

useradd hadoop && echo hadoop@psword | passwd --stdin hadoop


echo "hadoop    ALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers 
  1. ssh 都配置完成后 仍然无法免密码登录
    注意 ~/.ssh目录和 authorized_keys的权限问题 及登录的用户 一定要匹配
cd  ~/.ssh
cat id_rsa.pub >> authorized_keys
rm -rf id_rsa.pub

chmod 600 authorized_keys
chmod 700   ~/.ssh
image.png

http://blog.csdn.net/hai520ny/article/details/48136641

  1. 格式化硬盘的脚本出现问题,造成 挂载失败
    这个考验的是脚本的书写能力,尽量现在一台机器上验证成功后再在其他机器上尝试,幸好的是 还可以重复操作
    `
    格式化磁盘
    1.查看
    fdisk -l
    2.磁盘分区
    fdisk /dev/vdb
    (根据提示,依次输入“n”,“p”“1”,两次回车,“wq”,分区就开始了,很快就会完成。)
    3.格式化分区
    mkfs.ext3 /dev/vdb1

4.添加分区信息
echo '/dev/vdb1 /data1 ext3 defaults 0 0' >> /etc/fstab
(其中 /mnt 可以改成自定义的目录,我们一般用 /data1)

5.挂载分区
Mkdir /data1
mount -a
`

#!/bin/sh

disks=("/dev/vdb"   "/dev/vdc" "/dev/vdd" "/dev/vde" "/dev/vdf")
counts=1
for  disk  in  ${disks[*]}
do
   echo "begin fenqu disk :"+ $disk

   echo "n
         p
         1


         wq"| fdisk $disk &
   echo "fenqu finish,format disk ing"
   mkfs.ext3 ${disk}1
   echo "format disk complete  mkdir ing"+${counts}
   sudo -i mkdir /data${counts}
   echo "register  in  fstab"
   echo  "${disk}1   /data${counts} ext3 defaults  0  0">> /etc/fstab
   echo "gua zai disk"
   mount -a
   echo "all complete"

4.root 用户 jps 命令 有效,hadoop 用户 jps 无效 无法 使用hadoop 命令
需要在hadoop登录时 把 java scala hadoop的配置信息 配置到 该用户的 ~/.bashrc中 并source一下才会生效

export  JAVA_HOME=/usr/local/java
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5.启动hadoop 发现 没有NameNode ,
说明 NameNode格式化没有成功,需要再次格式化
6.发现50070可以访问,8088无法访问,
防火墙问题
7.logstash 使用webhdfs 无法写入 ,connect refused socket time out
主要是 logstash 要连接各个DataNode节点的50075端口,关闭 防火墙 50075端口
8.logstash 使用 webhdfs 还是无法写入,报 sever error exception=>"WebHDFS::ServerError",
logstash所在的机器 的/etc/hosts文件 必须配置所有 hadoop namenode 和datanode 节点的 公有 ip 主机名 和 私有ip 主机名,加入 在同一个 机房 可以内网访问,可以先 配置 私有ip 主机名 再 配置 公有 ip 主机名,一定要注意顺序 ,hosts 读取时有先后顺序,读到 最上一行的主机名 后,就会忽略掉 下一行同样主机名配置的ip

# 内网
192.168.245.131    linkhadoop-node1
192.168.245.132    linkhadoop-node2
192.168.245.133    linkhadoop-node3
192.168.245.134    linkhadoop-node4 
# 外网
47.93.5.153    linkhadoop-master
47.94.27.224   linkhadoop-node4
47.95.19.172   linkhadoop-node3
47.94.24.132     linkhadoop-node2
47.95.13.4      linkhadoop-node1

9.hadoop 运行 自带的wordcount 卡在 map 0% 上
主要是hadoop 的site 配置文件中配置的内存使用情况导致的,要适当增大,太小则没有足够的内存 运行hadoop项目

10.使用distcp 从源集群A 到目标集群B 总是失败
两个 集群 中 所有节点 中的每个节点必须可以ping 通 ,且 在任一一个节点都要配置 本节点的host 的私有ip 主机名 还要配置 另一个集群的公有ip 和主机名在自己的hosts文件中,如果两个集群都在 同一个机房,则都可以配置私有ip即可。尤其要注意 在
distcp 使用 hftp 协议时,一定要在目标集群B 集群上操作 才会成功,如果 使用 hdfs 协议,原则上 在两个集群上都可以生效成功

hadoop distcp  hftp://link-test-s06:50070/zeppelin-web-0.7.2.war  hdfs://linkhadoop-master:9000/input/

hadoop distcp  hdfs://link-test-s06:9000/zeppelin-web-0.7.2.war  hdfs://linkhadoop-master:9000/input/

Hadoop dictcp  hftp://52.80.67.242:50070/testdata/app.txt      hdfs://linkhadoop-master:9000/input/

hadoop distcp  hftp://link-test-s06:50070/zeppelin-web-0.7.2.war  hdfs://linkhadoop-master:9000/input/ze.war

可以参考
http://blog.csdn.net/stark_summer/article/details/45869945 http://xmaster.iteye.com/blog/1929025 http://www.jianshu.com/p/cbace52602aa http://www.jianshu.com/p/c642fc4dc25b http://blog.csdn.net/sunnyyoona/article/details/54668028 http://blog.csdn.net/stark_summer/article/details/45869945 http://www.it165.net/admin/html/201501/4693.html https://www.cloudera.com/documentation/enterprise/5-4-x/topics/cdh_admin_distcp_data_cluster_migrate.html http://blog.csdn.net/weipanp/article/details/42713149 http://taoo.iteye.com/blog/1662998 http://blog.csdn.net/bigdatahappy/article/details/42457023 http://blog.csdn.net/yonghutwo/article/details/39937185 https://community.hortonworks.com/questions/40835/distcp-job-fails-with-eof-exception.html
11.另外 阿里云的yum安装走内网 ,非常方便,但是 阿里云 就是一个空壳子 ,需要安装很多东西 ,比如 netcat telnet snappy python

 yum install -y nc
sudo -i  yum install snappy snappy-devel
sudo -i yum install telnet

使用nc 来检验 网络通信 端口是否连接

 nc -l 9000
telnet  linkhadoop-master 9000
telnet  linkhadoop-node4 9000

telnet 端退出 :ctrl+]  quit

12.配置主机名没有生效
首先 hostname 命令查看 主机名
然后在 /etc/hosts 配置 本机的私有ip 主机名 本机的公有ip 主机名
之后再 在 vi /etc/sysconfig/network 配置 HOSTNAME=主机名
然后使用 hostname 新主机名
退出后 重新登录 即可使用到新主机名

13.启动hadoop 可以启动到 各个DataNode ,但是NameNode无法连接到DataNode
这个主要是 NameNode的hosts 造成的,在使用nc 测试 ,发现 NameNode 只监听了本机的50075端口,没有监听到 其他DataNode的50075端口访问。造成的,主要原因是在 NameNode的 /etc/hosts 中 配置了 127.0.0.1 NameNode的 主机名,一定不要把NameNode主机名配置给127.0.0.1否则 就会出现这种情况。

HADOOP :WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: xxx/xxx
WARN org.apache.hadoop.hdfs.server.datanode.DataNode:Problem connecting to server: hadoop-master/172.17.25.5:9000
 netstat -na | grep 9000 
 netstat -na | grep 50075
 netstat -na | grep 8020

image.png

参考 :http://blog.csdn.net/zhang0558/article/details/53149580 http://blog.csdn.net/renfengjun/article/details/25320043 http://blog.163.com/ly_89/blog/static/186902299201265101913507/ http://www.cnblogs.com/tankaixiong/p/4177832.html 当然还有就是多次 format 后 造成datanode的clusterID 和 namenode的clusterID 不匹配,
14.相关软件工具 使用wget 安装还是非常愉快的事情

 wget  http://124.205.69.130/files/6130000005CB2796/download.oracle.com/otn-pub/java/jdk/8u144-b01/090f390dda5b47b9b721c7dfaa008135/jdk-8u144-linux-x64.tar.gz

Wget http://124.202.164.16/files/301900000A7B7725/archive.apache.org/dist/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz

Wget **http://www-us.apache.org/dist/hadoop/common/hadoop-3.0.0-beta1/hadoop-3.0.0-beta1.tar.gz**

wget    https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 

wget [https://downloads.lightbend.com/scala/2.11.11/scala-2.11.11.tgz](https://downloads.lightbend.com/scala/2.11.11/scala-2.11.11.tgz)
wget  [https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.11.0.1/kafka_2.11-0.11.0.1.tgz](https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/0.11.0.1/kafka_2.11-0.11.0.1.tgz)
(https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz)

使用

 echo  “export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin”  >>/etc/profile 

source  /etc/profile 

发现 java 和hadoop 并没有生效,主要元婴是 在这条命令前一定要 先source /etc/profile ,否则 JAVA_HOME HADOOP_HOME 并没有成为环境变量 被识别,这条命令就无法识别他们。

还有 hadoop 有许多默认的端口号,如果不在配置文件中配置更改 ,则一直使用默认端口,尤其是要注意的是 core-stie.xml 中的fs.defaultFS 属性,一般我们配置为9000,但是有一些其他的工具 例如logstash Rpc 等连接还是会寻找8020端口 webhdfs连接hadoop
所以8020端口还是要打开 ,在配置文件中配置

<property>
       <name>fs.defaultFS</name>
       <value>hdfs://link-test-s06:9000</value>
   </property>

   <property>
      <name>ipc.8020.backoff.enable</name>
      <value>true</value>
    </property>

https://blog.cloudera.com/blog/2009/08/hadoop-default-ports-quick-reference/

配置高可用
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithNFS.html
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html

hadoop的常见问题和 权限问题
http://longmans1985.blog.163.com/blog/static/706054752011819104133455/
http://blog.csdn.net/xujinyang/article/details/6874037
http://dongxicheng.org/mapreduce/run-hadoop-job-problems/
http://www.cnblogs.com/people/p/3174756.html
http://www.cnblogs.com/xing901022/p/4805586.html

有一个问题 就是我们搭建的 hadoop 集群有时候是不配置公网ip 的,为此 我们又特别需要 一些hadoop的监控 信息 ,比如 通过 50070 19888 8088 端口 访问 hdfs 文件系统, task 和服务信息 及 job 执行日志信息,我们需要 借用 有公网的机器 使用NGINX 配置反向代理,这样就可以在没有公网的基础上进行 访问了,以后还想访问哪些端口 ,接着配置就可以了。不过大家要注意的就是 端口 安全组策略一定要把这个端口的出方向和入方向都要配置好,单单只配出方向是无法正常访问的

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容

  • 简述 hadoop 集群一共有4种部署模式,详见《hadoop 生态圈介绍》。HA联邦模式解决了单纯HA模式的性能...
    mtide阅读 12,116评论 8 19
  • 简述 hadoop 集群一共有4种部署模式,详见《hadoop 生态圈介绍》。HA模式的集群里面会部署两台NN(最...
    mtide阅读 6,728评论 0 10
  • 经过一系列的前期环境准备,现在可以开始Hadoop的安装了,在这里去apache官网下载2.7.3的版本http:...
    欢醉阅读 1,595评论 8 28
  • 五一小渔村走一遭,别样于都市,忘情于山水,记之。 《鹅头游记》 潮起随流水, 潮落走腥风。 犬吠有远客, 夜梦岸无声。
    吴蛋蛋阅读 298评论 0 0
  • 昨天,趁着周末刷了部日剧《woman》,这个故事讲述的是女主角小春如何与因为受到家庭暴力而离开家庭的母亲化解误会,...
    鱼耗子阅读 175评论 0 0