概述 之前写过spark批量导入Hbase的案例:Spark、BulkLoad Hbase、单列、多列,实现了多列的操作。整个过程涉及到排序、分...
概述 之前写过spark批量导入Hbase的案例:Spark、BulkLoad Hbase、单列、多列,实现了多列的操作。整个过程涉及到排序、分...
扩展:Spark:DataFrame生成HFile 批量导入Hbase在上一篇博文中遗留了一个问题,就是只能处理DataFrame 的一行一列,...
正文内容分为上下两篇来阐述,下一篇见《Spark内存管理详解(下)——内存管理》[https://www.jianshu.com/p/58288...
今天再来介绍一个小的优化点,是一个通过使用fastutil工具包对数据格式进行优化。首先来明确一个东西,什么是fastutil? fastuti...
JobScheduler有两个重要成员,一是上文介绍的 ReceiverTracker,负责分发 receivers 及源源不断地接收数据;二是...
spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》...
什么是小文件? 生产上,我们往往将Spark SQL作为Hive的替代方案,来获得SQL on Hadoop更出色的性能。因此,本文所讲的是指存...
批量加载-Bulk Load 在工作过程中有个需求,需要将DataFrame的数据保存进Hbase,并且在Spark集群并没有安装Hbase,此...
在进行Spark开发算法时,最有用的一个函数就是reduceByKey。 reduceByKey的作用对像是(key, value)形式的rdd...
导言 随着大数据集群的使用,大数据的安全受到越来越多的关注一个安全的大数据集群的使用,运维必普通的集群更为复杂。集群的安全通常基于kerbero...
专题公告
专注于spark相关内容分享,github相关资料整理:https://github.com/jacksu/utils4s