IQL (项目地址:https://github.com/teeyog/IQL) English | 简体中文 基于SparkSQL实现了一套即...
需求 spark应用程序中,只要task失败就发送邮件,并携带错误原因。 背景 在spark程序中,task有失败重试机制(根据 spark.t...
前言 Spark数据本地化即移动计算而不是移动数据,而现实又是残酷的,不是想要在数据块的地方计算就有足够的资源提供,为了让task能尽可能的以最...
前言 在spark应用程序中,常常会遇到运算量很大经过很复杂的 Transformation才能得到的RDD即Lineage链较长、宽依赖的RD...
背景 目前 spark 对 MySQL 的操作只有 Append,Overwrite,ErrorIfExists,Ignore几种表级别的模式,...
前言 为了让Spark Streaming消费kafka的数据不丢数据,可以创建Kafka Direct DStream,由Spark Stre...
本文基于 Spark 2.1 进行解析 前言 从 Spark 2.0 开始移除了Hash Based Shuffle,想要了解可参考Shuffl...
1.Rundeck介绍 Rundeck(http://rundeck.org)是开源软件,可以帮助你自动化管理日常操作程序,Rundeck提供了...
看 spark streaming 源码解析之前最好先了解spark core的内容。 前言 Spark Streaming 是基于Spark ...