Shuffle 概述 影响Spark性能的大BOSS就是shuffle,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果...
什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partit...
SparkContext 是什么? 驱动程序使用SparkContext与集群进行连接和通信,它可以帮助执行Spark任务,并与资源管理器(如Y...
读 保存 文件保存选项 注:这些保存模式不使用任何锁定,不是原子操作。如果使用 Overwrite 同时该路径(path)又是数据源路径,要先对...
用户自定义udf 自定义udf的方式有两种 SQLContext.udf.register() 创建UserDefinedFunction 这两...
这篇文章主要是对官网内容学习过程的总结,大部分是原文,加上自己的学习笔记!!! spark 2.0+内存模型spark 2.0+内存模型 调优内...
Spark参数详解 (Spark1.6) 参考文档:Spark官网在Spark的web UI在“Environment”选项卡中列出Spark属...
扩展:Spark:DataFrame生成HFile 批量导入Hbase在上一篇博文中遗留了一个问题,就是只能处理DataFrame 的一行一列,...
批量加载-Bulk Load 在工作过程中有个需求,需要将DataFrame的数据保存进Hbase,并且在Spark集群并没有安装Hbase,此...
文集作者