240 发简信
IP属地:湖南
  • RocksDB原理学习笔记

    优点 增加了column family,这样有利于多个不相关的数据集存储在同一个db中,因为不同column family的数据是存储在不同的s...

  • HiveServer2 HA源码分析及原理

    现在网上很难找到一篇有关HiveServer2 HA源码分析的文章,晚上有时间又耐不住从源码层面分析了下HiveServer2 HA负载均衡实现...

  • Spark HiveThriftServer2启动流程源码分析

    背景 接触SparkSQL不久,查找了些别人的资料,感觉对整个Spark HiveThriftServer2流程讲的糊里糊涂的,觉得需要从Bee...

  • Sparn On Yarn启动流程源码分析

    YARN模式下启动流程 1.YarnschedulerBackend启动入口 YARN的启动是在SparkContext初始化scheduler...

  • Spark Streaming使用场景及优化总结

    SparkStreaming适合场景 Storm 流式计算(扶梯)优点: 数据延迟度很低,Storm的事务机制要比SparkStreaming的...

  • Spark 2.1.0 - Shuffle逻辑分析

    网上有很多文章,发现跟当前的版本有很多冲突,看起来一知半解的;当前讨论的版本为spark2.1.0,之前的版本不再考虑;而其命名方式也很奇怪,可...

  • CarbonData 1.2.0集成Spark 2.1.0调研

    编译 carbondata1.2已经支持hive+presto,carbon生态圈基本健全。 基于git checkout到branch-1.2...

  • HiveServer2 HA模型部署测试

    配置zookeeper,启动多个HiveServer 配置HA Zookeeper信息如下: 首先,在host1上启动MetaStore和Hiv...

  • Spark Streaming和Spark Struct Streaming + Kafka环境部署测试

    Kafka 单机环境搭建 从官网下载kafka_2.11-0.9.0.1和kafka_2.11-0.10.2.0两个版本, 这两个版本升级较大。...