pamperxg - 简书

pamperxg

IP属地：广东

azkaban工作流调度
一个完整的数据分析系统通常由大量的任务单元组成：shell脚本程序，java程序，mapreduce程序，hive脚本等。各任务单元之间存在时间...

2702 0 5
hadoop HA（high available）集群搭建
这篇文章重现了我自己用七台centos6.7mnimal虚拟机搭建一个ha hadoop集群的过程。（之前配置虚拟机和搭建hadoop集群的文章...

1331 0 4

flume数据采集
简介 flume官网里面有user guide。作用：日志采集、聚合、传输核心组件：Agentagent内部组件：source，sink，cha...

2778 0 2
hive级联累计
根据访问次数统计表，得到累计访问总计建表，load数据求每个用户的月总金额把表自己inner join 生成累计值分组查询求月累计值。为...

1433 0 2
hive自定义函数和transform
hive自定义函数（udf：user-defined function）例1：对于以下数据 1、开发一个java类，继承UDF(聚合函数继承U...

1861 0 2
HIVE简介与安装
基于hadoop的数据仓库工具，封装了mapreduce，大大简化了开发过程（简单来说，就是把sql变成了mapreduce程序）。!!!这里说...

934 0 2
hadoop高可用（HA）机制
hdfs工作机制这里对于namenode和secondarynamenode。客户端文件过来先写入日志edits，再写入内存中的FsNames...

791 0 2

Hadoop集群的搭建
hdfs集群：负责文件读写/namenode、datanode yarn集群：负责为mapreduce分配运算硬件资源/resource man...

289 0 2
配置局域网的yum源
关于局域网内部yum源的配置，我学到的做法是：从几台机器中挑选一台配置本地yum源，然后利用httpd服务器，配置为局域网内部所有机器的yum源...

1267 0 2