什么是 ConfigMap 顾名思义,用来存配置的Map,可以存单个配置或者配置文件,在 POD 中我们可以通过环境变量来访问单个配置和配置文件...
什么是 ConfigMap 顾名思义,用来存配置的Map,可以存单个配置或者配置文件,在 POD 中我们可以通过环境变量来访问单个配置和配置文件...
JobScheduler有两个重要成员,一是上文介绍的 ReceiverTracker,负责分发 receivers 及源源不断地接收数据;二是...
目录 流量控制简介 Spark Streaming流控基本设置 Spark Streaming反压机制的具体实现动态流量控制器基于PID机制的速...
Tungsten简介 tungsten-sort这个名字作为一种排序方法,听起来有点怪异。下面简单介绍一下Tungsten。 Project T...
上一篇文章讲解了RDD的基本概念, 这篇文章尝试分析当Spark拿到一个RDD之后是如何处理它的. 文中会涉及到Spark内部的实现细节, 希望...
前言 Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部,大家都...
随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系...
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本 背景: Kafka做为一款流行的分布式发布订阅消息系统,以...
Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一,主要是用于数据实时入库或分析。 为了应对可能出现的引起Streami...
shuffle write入口 先回忆一下基础知识: Spark作业执行的单元从高到低为job→stage→task stage分为Shuffl...
专题公告
Spark深入学习专题旨在通过高质量的文章对Spark相关技术进行研究学习