俺是亮哥 - 简书

俺是亮哥

IP属地：北京

看了之后不再迷糊-Spark多种运行模式
早就想写这章了，一直懒得动笔，不过还好，总算静下心来完成了。刚接触Spark时，很希望能对它的运行方式有个直观的了解，而Spark同时支持多种...

3.7 50668 24 91 1
（基于最新的Kafka version 0.10.2 new consumer API ）想要Spark Streaming精确一次消费Topic？拿去不谢，记得点赞和分享！
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本背景： Kafka做为一款流行的分布式发布订阅消息系统，以...

0.9 10963 26 66

YARN上显示应用程序使用的vcores、memory不准确？
本文基于Spark2.1.0版本我们知道，使用yarn作为cluster manager时，spark（以client模式为例）用spark-...

0.9 20341 4 17
Spark 2.X 上累加器(Accumulators)不能用了？原来如此
本文基于Spark2.1.0版本今天整理累加器的知识点时，发现实例化一个Accumulator对象，编译无法通过：查了一下Spark2.x的...

3731 2 2
Spark Streaming使用Receiver机制消费Kafka时，任务并发度如何设置？
（本文基于Spark 2.1.1、Kafka 0.10.2、Scala 2.11.8、Zookeeper 3.4.9、Kafka-manager...

0.3 4808 2 19 1
Spark RDD的默认分区数：（spark 2.1.0）
本文基于Spark 2.1.0版本新手首先要明白几个配置： spark.default.parallelism：（默认的并发数）如果配置...

0.3 18916 3 11 2
一篇漫画理解HDFS读写工作原理
浅显易懂的介绍，很多资料对File Blocks副本Location位置的描述是有误的，正确的理解请参考本漫画，后附Hadoop 2.7.3 B...

0.5 1687 2 28 1

15分钟学会SparkSQL通过JDBC连接外部数据库（PostgreSQL为例）
本文基于Spark2.1.0版本 1，先简单介绍一下通过SparkSQL JDBC连接数据库的好处，不过这不是本文的重点。 JDBC(Java...

0.3 12029 1 10
利用Kryo序列化库是你提升Spark性能要做的第一件事
本文基于Spark2.1.0版本套用官文Tuning Spark中的一句话作为文章的标题： *Often, choose a serializa...

0.5 26898 2 18