240 投稿
收录了11篇文章 · 14人关注
  • Resize,w 360,h 240
    第4章:YARN

    Apache YARN(Yet Another Resource Negotiator)是一个Hadoop集群资源管理系统。YARN是在Hado...

  • Resize,w 360,h 240
    第3章:Hadoop分布式文件系统(1)

    当数据量增大到超出了单个物理计算机存储容量时,有必要把它分开存储在多个不同的计算机中。那些管理存储在多个网络互连的计算机中的文件系统被称为“分布...

  • 第5章:Hadoop I/O

    Hadoop有一些数据I/O方面操作的工具,其中一些比Hadoop使用的都更普遍。例如数据完整性和压缩。但是当使用这些工具处理多达几TB数据的时...

  • Resize,w 360,h 240
    第2章:MapReduce

    MapReduce是一个数据处理的编程模型。这个模型很简单,但也不是简单到不能够支持一些有用的语言。Hadoop能够运行以多种语言写成的MapR...

  • Resize,w 360,h 240
    第3章:Hadoop分布式文件系统(2)

    数据流 读取文件数据的剖析 客户端通过调用FileSystem对象的open()方法打开一个希望从中读取数据的文件,对于HDFS来说,FileS...

  • Flink状态

    key状态和算子状态 key状态 key状态总是与key有关,只能被用于keyedStream类型的函数与算子。你可以认为key状态是一种被分区...

  • Spark方法aggregate讲解

    大致的意思是aggregate接收两个函数,和一个初始化值。seqOp函数用于聚集每一个分区,combOp用于聚集所有分区聚集后的结果。每一个分...

  • Resize,w 360,h 240
    FileSystem关键几个方法的时序图

    Hadoop将底层文件系统抽象成FileSystem类,上层用户可以通过相同方法操作底层不同的文件系统。常用的方法有get一个FileSyste...

  • Resize,w 360,h 240
    Hive中自定义Map/Reduce示例 In Java

    Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。如果自己使用Java开发,需要处理Sy...

  • Hive中自定义Map/Reduce示例 In Python

    Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。使用Python开发(如果使用Java...

专题公告

发布Hadoop相关文章,解决开发人员技术问题,共同探讨,共同进步。