Spark学习之路 - 专题

投稿

Spark学习之路

收录了60篇文章 · 232人关注

5. Hadoop之旅——Hive使用篇
github链接针对Hive的优化主要有以下几个方面： map reduce file format shuffle & sort job a...

0.1 zoyanhui 2 33 2
一篇漫画理解HDFS读写工作原理
浅显易懂的介绍，很多资料对File Blocks副本Location位置的描述是有误的，正确的理解请参考本漫画，后附Hadoop 2.7.3 B...

0.5 俺是亮哥 2 28 1

Spark实时统计订单量
前言本人GitHub地址：https://github.com/guofei1219QQ : 86608625咨询项目相关问题的请直接说明问题...

0.1 MichaelFly 1 14
YARN上显示应用程序使用的vcores、memory不准确？
本文基于Spark2.1.0版本我们知道，使用yarn作为cluster manager时，spark（以client模式为例）用spark-...

0.9 俺是亮哥 4 17
Spark Streaming如何消费Kafka的大消息(30M-40MB)
本文基于Spark2.1.0版本虽然很少有生产环境用Kafka传递超过1M消息的场景（因为高吞吐、低延时的要求，Kafka 发布-订阅模型中P...

0.5 俺是亮哥 0 12
Spark 2.x+IntelliJ IDEA 2017.3开发环境搭建和开发示例
【原创】Helenykwang 于2018-01-13 18:10:18编写不用maven，不用sbt，只需三个库一、环境说明集群：Spa...

0.6 柠樂helen 2 13
[spark] Shuffle Write解析 (Sort Based Shuffle)
本文基于 Spark 2.1 进行解析前言从 Spark 2.0 开始移除了Hash Based Shuffle，想要了解可参考Shuffl...

0.5 BIGUFO 1 12

通俗理解YARN运行原理
导语：工作中常常和Spark on YARN, Hadoop on YARN打交道，经常在各种日志中摸爬滚打，为提升效率，总结一下YARN的知识...

0.2 柠樂helen 2 13
Spark RDD的默认分区数：（spark 2.1.0）
本文基于Spark 2.1.0版本新手首先要明白几个配置： spark.default.parallelism：（默认的并发数）如果配置...

0.3 俺是亮哥 3 11 2
SparkSQL读取HBase数据
这里的SparkSQL是指整合了Hive的spark-sql cli（关于SparkSQL和Hive的整合，见文章后面的参考阅读）. 本质上就是...

Alukar 0 9