IQL (项目地址:https://github.com/teeyog/IQL) English | 简体中文 基于SparkSQL实现了一套即...
前言 为了让Spark Streaming消费kafka的数据不丢数据,可以创建Kafka Direct DStream,由Spark Stre...
需求 spark应用程序中,只要task失败就发送邮件,并携带错误原因。 背景 在spark程序中,task有失败重试机制(根据 spark.t...
背景 Spark支持多种数据源,但是Spark对HBase 的读写都没有相对优雅的api,但spark和HBase整合的场景又比较多,故通过sp...
本文基于 Spark 2.1 进行解析 前言 从 Spark 2.0 开始移除了Hash Based Shuffle,想要了解可参考Shuffl...
前言 由前面博客我们知道了SparkSql整个解析流程如下: sqlText 经过 SqlParser 解析成 Unresolved Logic...
功能 分布式的搜索引擎和数据分析引擎 全文检索,结构化检索,数据分析 对海量数据进行近实时的处理 环境搭建 从官网下载压缩包 elasticse...
Shuffle Write 请看 Shuffle Write解析。 本文将讲解shuffle Reduce部分,shuffle的下游Stage的...
前言 由上篇博客我们知道了SparkSql整个解析流程如下: sqlText 经过 SqlParser 解析成 Unresolved Logic...