240 发简信
  • 常用算子

    http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html RDD...

  • 离散流 DStream 概念

    DStream是一个抽象的概念横向分别是一个DStream,一个是Lines DStream,一个是 World DStream 一个表示取出的...

  • 120
    SparkSQL thrift server 搭建

    spark的 thrift serve r和hive的hive server2类似,有了它之后,sparksql就可以直接用jdbc去连接 是需...

  • SparkSql 内存列存储

    不一定快,但绝对省空间

  • 120
    SparkSQL thrift server环境搭建

    一. 前提条件 启动hdfs集群 start-all.sh 192.168.4.31:50070 启动hive的metastore服务 node...

  • spark-源码 master和worker启动

    概述 Worker的启动都是通过启动shell脚本 Master启动 master启动从main函数开始,主要启动Rpc环境:RpcEnv(Rp...

  • sparksql为什么比hive on spark 快

    1、sparksql 内存列存储 2、sparksql的字节码生成技术,合并代码 3、scala 代码优化,尽量减少低效容易jc的代码,例如把 ...

  • spark-源码-action算子触发

    基于spark1.6 创建完SparkContext,然后执行Action算子 当RDD执行Action算子时(形成一个job),会将代码提交到...

  • spark-源码-sparkContext DagScheduler

    基于spark1.6 在sparkContext里会创建 DAGScheduler,DAGScheduler 初始化了一个事件阻塞队列(acti...