240 发简信
IP属地:广东
  • Resize,w 360,h 240
    azkaban工作流调度

    一个完整的数据分析系统通常由大量的任务单元组成:shell脚本程序,java程序,mapreduce程序,hive脚本等。各任务单元之间存在时间...

  • Resize,w 360,h 240
    hadoop HA(high available)集群搭建

    这篇文章重现了我自己用七台centos6.7mnimal虚拟机搭建一个ha hadoop集群的过程。(之前配置虚拟机和搭建hadoop集群的文章...

  • Resize,w 360,h 240
    flume数据采集

    简介 flume官网里面有user guide。作用:日志采集、聚合、传输核心组件:Agentagent内部组件:source,sink,cha...

  • hive级联累计

    根据访问次数统计表,得到累计访问总计 建表,load数据 求每个用户的月总金额 把表自己inner join 生成累计值 分组查询求月累计值。为...

  • hive自定义函数和transform

    hive自定义函数(udf:user-defined function) 例1:对于以下数据 1、开发一个java类,继承UDF(聚合函数继承U...

  • Resize,w 360,h 240
    HIVE简介与安装

    基于hadoop的数据仓库工具,封装了mapreduce,大大简化了开发过程(简单来说,就是把sql变成了mapreduce程序)。!!!这里说...

  • Resize,w 360,h 240
    hadoop高可用(HA)机制

    hdfs工作机制 这里对于namenode和secondarynamenode。客户端文件过来先写入日志edits,再写入内存中的FsNames...

  • Hadoop集群的搭建

    hdfs集群:负责文件读写/namenode、datanode yarn集群:负责为mapreduce分配运算硬件资源/resource man...

  • 配置局域网的yum源

    关于局域网内部yum源的配置,我学到的做法是:从几台机器中挑选一台配置本地yum源,然后利用httpd服务器,配置为局域网内部所有机器的yum源...