一个完整的数据分析系统通常由大量的任务单元组成:shell脚本程序,java程序,mapreduce程序,hive脚本等。各任务单元之间存在时间...
这篇文章重现了我自己用七台centos6.7mnimal虚拟机搭建一个ha hadoop集群的过程。(之前配置虚拟机和搭建hadoop集群的文章...
简介 flume官网里面有user guide。作用:日志采集、聚合、传输核心组件:Agentagent内部组件:source,sink,cha...
根据访问次数统计表,得到累计访问总计 建表,load数据 求每个用户的月总金额 把表自己inner join 生成累计值 分组查询求月累计值。为...
hive自定义函数(udf:user-defined function) 例1:对于以下数据 1、开发一个java类,继承UDF(聚合函数继承U...
基于hadoop的数据仓库工具,封装了mapreduce,大大简化了开发过程(简单来说,就是把sql变成了mapreduce程序)。!!!这里说...
hdfs工作机制 这里对于namenode和secondarynamenode。客户端文件过来先写入日志edits,再写入内存中的FsNames...
hdfs集群:负责文件读写/namenode、datanode yarn集群:负责为mapreduce分配运算硬件资源/resource man...
关于局域网内部yum源的配置,我学到的做法是:从几台机器中挑选一台配置本地yum源,然后利用httpd服务器,配置为局域网内部所有机器的yum源...