240 发简信
IP属地:广东
  • AutumnMidnight

    TodoList: Be busy living Pamper's Blog

  • ubuntu美化和常用软件安装

    安装完Ubuntu系统后 配置一个国内镜像: 安装搜狗输入法:先下载搜狗输入发for linux的deb包 打开系统设置,点击语言支持,键盘输入方式系统选择fictix注销,...

  • 120
    storm

    离线计算批量获取数据、批量传输数据、周期性批量计算数据、数据展示(报表)代表技术:sqoop批量导入数据、hdfs批量存储数据、mapreduce批量计算数据、hive批量计...

  • 120
    初识spark

    大数据及分析环境 bigdata主要体现在:量,速度,多样性数据量,数据流速度(实时,批量,串流),数据多样性(结构化,半结构化(弹性内容),非结构化(写parser处理))...

  • ubuntu16与windows8双系统

    下载ubuntu系统,下载Ultraiso制作u盘为启动盘 进入bios,设置u盘优先启动。重启安装,按照提示操作。 安装完成后我们再次进入windows的时候发现时间变了。...

  • Hbase。。

    hbase的数据模型 行键,时间戳,列簇。列簇是表schema的一部分,而列不是,所以动态加列可以不用改变表结构。每一个列簇生成一个文件,就相当于做了分表。cell:由row...

  • 120
    HBASE简介和安装

    列式数据库与行式数据库 从上面可以看出,列式数据库和行式数据库各自有着自己的优点。传统数据库如:oracle、mysql都是行式。它们适合用于实时的业务系统(OLTP),对数...

  • mapreduce的执行过程

    wordcount 关于切片划分maptask任务,由客户端(提交job)完成,写入文件交给mr appmaster。这里的任务切片是一个逻辑片,和hdfs的block是不同...

  • 120
    mapreduce初体验--wordcount

    mapreduce是hadoop的核心部分之一。是分布式运算程序的编程框架。相对于hdfs,mapreduce就是一个客户端。hdfs:namenode,管理整个系统的元数据...

  • 120
    socket,hadoop的rpc

    socket:在本地我们用PID来唯一标识一个进程。但是在网络中这样做难以实现。在TCP/IP协议簇中,网络层的ip地址可以唯一标识网络中的主机,传输层的协议+端口可以唯一标...

  • 120
    一些互联网协议

    网络模型 这些分类会有一些大同小异。每一层都是为了完成一种功能,大家都遵守同样的协议。 物理层:把电脑连接起来,用光缆、电缆、双绞线、无线电波等方式。主要规定了网络的一些电器...

  • sqoop

    sqoop是一款在hadoop和关系数据库服务器之间传送数据的工具。导入:mysql,oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。导出:...

  • 120
    azkaban工作流调度

    一个完整的数据分析系统通常由大量的任务单元组成:shell脚本程序,java程序,mapreduce程序,hive脚本等。各任务单元之间存在时间先后和依赖关系,所以需要工作流...

  • 120
    flume数据采集

    简介 flume官网里面有user guide。作用:日志采集、聚合、传输核心组件:Agentagent内部组件:source,sink,channel(缓存) 这些组件可以...

  • hive级联累计

    根据访问次数统计表,得到累计访问总计 建表,load数据 求每个用户的月总金额 把表自己inner join 生成累计值 分组查询求月累计值。为什么要max(salary)?...

  • hive自定义函数和transform

    hive自定义函数(udf:user-defined function) 例1:对于以下数据 1、开发一个java类,继承UDF(聚合函数继承UDAF)并重载evaluate...

  • HIVE语句

    DDL(data definition) CREATE、ALTER、DROP…… 创建表 修改表 显示命令 操作: 内部表和外部表的区别:外部表drop的时候,把元数据中的记...