Hadoop数据分析平台实战——010hadoop介绍安装

本课程目标

本课程有以下几个目标:

  1. 第一:对hadoop没有了解的学员来说,可以帮助其了解在一般工作中hadoop的基本用法,以及对如何用hadoop有一定的了解。
  2. 第二:对hadoop有了解的学员来说,其一可以帮助学员加深对hadoop的了解,其二可以让学员对hadoop的实际应用场景有一个比较深入的了解。

Hadoop的主要应用场景

这里说的hadoop指的是以hadoop为中心的hadoop生态圈。
场景1:数据分析平台
场景2:推荐系统
场景3:业务系统的底层存储系统
场景4:业务监控系统
...............................

什么是数据分析平台

数据分析的主要目标是为公司提供一系列的网站指标,期望能够帮助到运维、技术等各个不同部门了解公司网站的情况。比如:当一个网站的注册方式修改后,我们发现访客转会员的比例降低了,那么我们可能就可以得出一个结论:“可能是用户觉得这种注册方式太麻烦而导致,不想注册了。”,这个时候我们可能就需要重新设计注册页面了。
数据分析这种平台比较适合电商类的网站,其他类型的相比较而言对这种类型的平台需求就低一点。主要原因是影响电商的主要因素有以下几个:第一,访客转会员率;第二,会员留存率;第三,会员购买率(复购率)。

数据分析平台主体架构

数据分析平台主体架构.png

数据平台的最终产出

分析报表

Hadoop简单介绍

Hadoop是apache基金会组织的一个顶级项目,
其核心为HDFS和MapReduce,HDFS为海量的数据提供存储,而MapReduce为海量的数据提供计算,
官网:http://hadoop.apache.org
在Apache Hadoop的基础上,Cloudera公司将其进行商业化改进和更新,它的发行版本就是CDH(Cloudera Distribution Hadoop),
CDH官网:http://www.cloudera.com

hadoop2.5.0-cdh5.3.6
CDH4.x: http://archive.cloudera.com/cdh4/cdh/4/
CDH5.x: http://archive.cloudera.com/cdh5/cdh/5/
CDH5.3.6文档:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.6/
Apache Hadoop :http://archive.apache.org/dist/hadoop/common
Apache Hadoop文档:http://hadoop.apache.org/docs

JDK下载地址 :http://www.oracle.com/technetwork/java/javase/archive-139210.html

Hadoop伪分布式环境搭建

安装步骤:

1. 创建用户,使用hadoop用户
2. 修改主机名以及ssh免密码登录
3. jdk安装
4. hadoop安装

Hadoop环境搭建-创建用户

步骤:(root用户密码为123456)

1. 使用useradd hadoop添加用户
2. 使用passwd hadoop设置用户密码,密码为abc123_
3. 给用户赋予使用sudo命令的权限。
4. chmod u+w /etc/sudoers
6. vim /etc/sudoers
7. 在root ALL=(ALL) ALL下面加上一行hadoop ALL=(ALL) ALL。(分隔的是制表符)
8. chmod u-w /etc/sudoers
image.png
image.png
image.png

Hadoop环境搭建-修改主机名以及ssh免密码登录

步骤:(使用hadoop用户登录)

    1. 使用sudo hostname hh修改主机名,当前生效,重启后失效。
    2. 使用vim /etc/sysconfig/network修改主机名,重启生效。
    3. 在/etc/hosts文件中添加主机名对于的ip地址。
    4. 使用ssh-keygen -t rsa生成ssh秘钥。dsa
    5. 进入.ssh文件夹,创建authorized_keys文件,并将id_rsa.pub的内容添加到文件中去,修改文件权限为600(必须)。
    6. ssh hh验证

SSH免密登录教程https://www.jianshu.com/p/8515c5602811

image.png
image.png

Hadoop环境搭建-JDK安装

步骤:

1. 复制jdk压缩包到softs文件夹中
2. 解压tar -zxvf softs/jdk-7u79-linux-x64.tar.gz
3. 创建软连接sudo ln -s /home/hadoop/bigdater/jdk1.7.0_79 /usr/local/jdk
4. 配置相关环境变量vim ~/.bash_profile: JAVA_HOME, CLASSPATH, PATH。全局生效配置文件/etc/profile。
5. 使环境变量生效 source ~/.bash_profile
7. 验证java version/ javac version
image.png
image.png

Hadoop环境搭建-hadoop安装

步骤:
1. 下载hadoop安装包并复制到到softs文件夹中。
2. 解压tar -zxvf softs/hadoop-2.5.0-cdh5.3.6.tar.gz,并创建数据保存文件hdfs(~/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/)。
3. 配置hadoop-env.sh mapred-env.sh yarn-env.sh文件
4. 配置基本环境变量core-site.xml文件
5. 配置hdfs相关变量hdfs-site.xml文件
7. 配置mapre相关环境变量mapred-site.xml文件
8. 配置yarn相关环境变量yarn-site.xml文件
9. 配置datanode相关变量slaves文件
10. 配置hadoop相关环境变量

image.png

Hadoop环境搭建-hadoop启动

步骤:

1. 第一次启动hadoop之前需要格式化namenode节点,命令为hadoop namenode -format。
2. 两种方式启动start-all.sh或者start-hdfs.sh start-yarn.sh。
3. 查看是否启动成功。

格式化提示信息

格式化提示信息.png

Hadoop环境搭建-验证hadoop是否启动成功

步骤:

1. 验证hadoop是否启动成功有两种方式,第一种:通过jps命令查看hadoop的进行是否启动,第二种:查看web界面是否启动显示正常内容。
 2. 验证hadoop对应的yarn(MapReduce)框架是否启动成功:直接运行hadoop自带的example程序。

创建一个test.txt

echo "welcome to join us bjsxt 尚学堂 优效学院 优效聚名师 学习更有效" >> test.txt
hadoop dfs -put test.txt /
使用hadoop自带的mapreduce程序验证:/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar
将文件内容添加上去后执行:hadoop jar hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /test.txt output/wordcount

执行完成以后运行 hadoop dfs -text output/wordcount/part-*

中途遇到了一个问题

hadoop Unhealthy Nodes问题解决
http://www.jianshu.com/p/a01c0bf5dd6a
是磁盘空间不足导致的,清空回收站之后就好了,晕死

AlbertMP:mapreduce Albert$ hadoop dfs -text output/wordcount/part-*
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

17/08/27 23:49:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
bjsxt   1
join    1
to  1
us  1
welcome 1
优效学院    1
优效聚名师   1
学习更有效   1
尚学堂 1

问题:

1.如果virtualbox无法选择64位操作系统安装,问题就是机器没有开始cpu虚拟化。bios需要设置一些信息。参考网站:http://jingyan.baidu.com/article/8ebacdf0df465b49f65cd5d5.html

配置信息参考

第一步:配置hadoop-env.sh
    export JAVA_HOME=/usr/local/jdk
    export HADOOP_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
第二步:配置mapred-env.sh
    export HADOOP_MAPRED_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
第三步:配置yarn-env.sh
    export YARN_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp
第四步:配置core-site.xml文件
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hh:8020</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp</value>
    </property>
第五步:配置hdfs-site.xml文件
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/name</value>
    </property>
    <property>
        <name>dfs.namenode.data.dir</name>
        <value>/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/data</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
第六步:创建mapred-site.xml文件,直接执行命令cp mapred-site.xml.templete mapred-site.xml
第七步:配置mapred-site.xml文件
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
第八步:配置yarn-site.xml文件
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
第九步:配置slaves指定datanode节点,将localhost改成主机名
第十步:修改环境变量文件".base_profile",并使其生效
    ###### hadoop 2.5.0
    export HADOOP_HOME=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/
    export HADOOP_PREFIX=$HADOOP_HOME
    export HADOOP_COMMON_HOME=$HADOOP_PREFIX
    export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
    export HADOOP_HDFS_HOME=$HADOOP_PREFIX
    export HADOOP_MAPRED_HOME=$HADOOP_PREFIX
    export HADOOP_YARN_HOME=$HADOOP_PREFIX
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容