240 发简信
  • 120
    Spark Pair RDD基本操作

    Pair RDD基本操作 虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最...

  • 120
    Spark--map与flatMap的区别

    Spark之中map与flatMap的区别 一直不太明白spark之中map与flatMap之间的区别。map的作用很容易理解就是对rdd之中的...

  • Spark—运行时架构

    Spark运行架构 术语定义 Client:客户端进程,负责提交作业到Master。 Master:Standalone模式中主控节点,负责接收...

  • 120
    Spark--基于分区进行操作

    基于分区进行操作 场景 Spark提供了map操作,map操作是对每一个元素进行函数操作。但是如果需求中有分配操作(比如获取数据库链接)此时就没...

  • cheerio

    cheerio是一个node的库,可以理解为一个Node.js版本的jquery,用来从网页中以 css selector取数据,使用方式和jq...

  • Spark RDD编程

    Spark RDD编程 概述 从高层次上来看,每一个Spark应用都包含一个驱动程序,用于执行用户的main函数以及在集群上运行各种并行操作。S...

  • 120
    Spark-RDD分区

    RDD分区 在分布式程序中,通信的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。所以对RDD进行分区的目的就是减少网...

  • Superagent

    superagent是nodejs里一个非常方便的客户端请求代理模块(类似python之中的request模块)当你想处理get,post,pu...

  • npm包管理器

    准备和使用Node包管理器 如果没有引入其他的包,你只能使用Node本身的语言特性和核心函数,这就是为什么大多数程序平台都有一个用来下载、安装,...