Spark - 文集

Spark

20篇文章 · 26327字 · 1人关注

Spark 调优之ShuffleManager、Shuffle
Shuffle 概述影响Spark性能的大BOSS就是shuffle，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果...

598 0 0
Spark 调优之数据倾斜
什么是数据倾斜？ Spark 的计算抽象如下数据倾斜指的是：并行处理的数据集中，某一部分（如 Spark 或 Kafka 的一个 Partit...

2.2 999 5 7

SparkSession、SparkContext、SQLContext和HiveContext之间的区别。
SparkContext 是什么? 驱动程序使用SparkContext与集群进行连接和通信，它可以帮助执行Spark任务，并与资源管理器(如Y...

737 0 0
Spark 读写数据、抽象转换拾遗
读保存文件保存选项注：这些保存模式不使用任何锁定，不是原子操作。如果使用 Overwrite 同时该路径（path）又是数据源路径，要先对...

341 0 0
Spark 自定义函数（udf,udaf）
用户自定义udf 自定义udf的方式有两种 SQLContext.udf.register() 创建UserDefinedFunction 这两...

1166 0 0
Spark-内存管理调优
这篇文章主要是对官网内容学习过程的总结，大部分是原文，加上自己的学习笔记！！！ spark 2.0+内存模型spark 2.0+内存模型调优内...

0.3 360 0 3
Spark参数详解一（Spark1.6）
Spark参数详解（Spark1.6）参考文档：Spark官网在Spark的web UI在“Environment”选项卡中列出Spark属...

1528 0 0

Spark：DataFrame写HFile （Hbase）一个列族、一个列扩展一个列族、多个列
扩展:Spark:DataFrame生成HFile 批量导入Hbase在上一篇博文中遗留了一个问题，就是只能处理DataFrame 的一行一列,...

0.3 3040 4 8
Spark:DataFrame生成HFile 批量导入Hbase
批量加载-Bulk Load 在工作过程中有个需求，需要将DataFrame的数据保存进Hbase,并且在Spark集群并没有安装Hbase,此...

0.1 5599 3 1