早就想写这章了,一直懒得动笔,不过还好,总算静下心来完成了。 刚接触Spark时,很希望能对它的运行方式有个直观的了解,而Spark同时支持多种...
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本 背景: Kafka做为一款流行的分布式发布订阅消息系统,以...
本文基于Spark2.1.0版本 我们知道,使用yarn作为cluster manager时,spark(以client模式为例)用spark-...
本文基于Spark2.1.0版本 今天整理累加器的知识点时,发现实例化一个Accumulator对象,编译无法通过: 查了一下Spark2.x的...
(本文基于Spark 2.1.1、Kafka 0.10.2、Scala 2.11.8、Zookeeper 3.4.9、Kafka-manager...
本文基于Spark 2.1.0版本 新手首先要明白几个配置: spark.default.parallelism:(默认的并发数) 如果配置...
浅显易懂的介绍,很多资料对File Blocks副本Location位置的描述是有误的,正确的理解请参考本漫画,后附Hadoop 2.7.3 B...
本文基于Spark2.1.0版本 1,先简单介绍一下通过SparkSQL JDBC连接数据库的好处,不过这不是本文的重点 。 JDBC(Java...
本文基于Spark2.1.0版本套用官文Tuning Spark中的一句话作为文章的标题: *Often, choose a serializa...