Spark深入学习 - 专题

投稿

Spark深入学习

收录了187篇文章 · 2223人关注

Spark on k8s: 配置和使用ConfigMap
什么是 ConfigMap 顾名思义，用来存配置的Map，可以存单个配置或者配置文件，在 POD 中我们可以通过环境变量来访问单个配置和配置文件...

0.8 Kent_Yao 5 4
揭开Spark Streaming神秘面纱③ - 动态生成 job
JobScheduler有两个重要成员，一是上文介绍的 ReceiverTracker，负责分发 receivers 及源源不断地接收数据；二是...

牛肉圆粉不加葱 6 13

深入理解Spark Streaming流量控制及反压机制
目录流量控制简介 Spark Streaming流控基本设置 Spark Streaming反压机制的具体实现动态流量控制器基于PID机制的速...

1.7 LittleMagic 1 14
Spark Tungsten-sort shuffle write流程解析
Tungsten简介 tungsten-sort这个名字作为一种排序方法，听起来有点怪异。下面简单介绍一下Tungsten。 Project T...

4.4 LittleMagic 3 8
Spark Job执行流程源码解析
上一篇文章讲解了RDD的基本概念, 这篇文章尝试分析当Spark拿到一个RDD之后是如何处理它的. 文中会涉及到Spark内部的实现细节, 希望...

0.1 福克斯记 2 17
记一次Spark Yarn Shuffle Service升级引发的血案
前言 Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部，大家都...

0.8 Kent_Yao 2 10
Hudi: Uber Engineering的Apache Hadoop增量处理框架
随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系...

2.5 Kent_Yao 6 20

（基于最新的Kafka version 0.10.2 new consumer API ）想要Spark Streaming精确一次消费Topic？拿去不谢，记得点赞和分享！
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本背景： Kafka做为一款流行的分布式发布订阅消息系统，以...

0.9 俺是亮哥 26 66
Kafka+Spark Streaming管理offset的两种方法
Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一，主要是用于数据实时入库或分析。为了应对可能出现的引起Streami...

3.0 LittleMagic 10 26
Spark基本sort shuffle write流程解析
shuffle write入口先回忆一下基础知识： Spark作业执行的单元从高到低为job→stage→task stage分为Shuffl...

1.1 LittleMagic 1 9