240 发简信
IP属地:四川
  • Resize,w 360,h 240
    基于SparkSQL实现的一套即席查询服务

    IQL (项目地址:https://github.com/teeyog/IQL) English | 简体中文 基于SparkSQL实现了一套即...

    4.0 7026 7 23
  • spark任务之Task失败监控

    需求 spark应用程序中,只要task失败就发送邮件,并携带错误原因。 背景 在spark程序中,task有失败重试机制(根据 spark.t...

    0.3 7669 4 12
  • [spark] 数据本地化及延迟调度

    前言 Spark数据本地化即移动计算而不是移动数据,而现实又是残酷的,不是想要在数据块的地方计算就有足够的资源提供,为了让task能尽可能的以最...

  • [spark] Checkpoint 源码解析

    前言 在spark应用程序中,常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RD...

  • Spark 实现MySQL update操作

    背景 目前 spark 对 MySQL 的操作只有 Append,Overwrite,ErrorIfExists,Ignore几种表级别的模式,...

  • Resize,w 360,h 240
    Spark Streaming管理Kafka偏移量

    前言 为了让Spark Streaming消费kafka的数据不丢数据,可以创建Kafka Direct DStream,由Spark Stre...

  • [spark] Shuffle Write解析 (Sort Based Shuffle)

    本文基于 Spark 2.1 进行解析 前言 从 Spark 2.0 开始移除了Hash Based Shuffle,想要了解可参考Shuffl...

    0.5 3117 1 12
  • Resize,w 360,h 240
    自动化管理工具Rundeck

    1.Rundeck介绍 Rundeck(http://rundeck.org)是开源软件,可以帮助你自动化管理日常操作程序,Rundeck提供了...

  • [spark streaming] DStream 和 DStreamGraph 解析

    看 spark streaming 源码解析之前最好先了解spark core的内容。 前言 Spark Streaming 是基于Spark ...