miss幸运 - 简书

IP属地：北京

spark开发调优
开发调优原则一：避免创建重复的RDD原则二：尽可能复用同一个RDD原则三：对多次使用的RDD进行持久化Spark的持久化级别原则四：尽量避免使用...

406 0 0
HDFS架构
1.hadoop1.x hdfs架构图 3.hdfs写流程客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件b...

350 0 0

HDFS简介
HDFS是传统的Master-Slave架构：一个集群由一个Master节点和若干个Slave节点组成。在HDFS中，Master节点称为Nam...

1275 0 0
kafka 架构
https://www.cnblogs.com/cyfonly/p/5954614.html 2.1 拓扑结构 2.2 相关概念 1.produ...

747 0 0
spark数据倾斜
一、数据倾斜数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时，数据倾斜一般发生在shuffle过程中，因为Spa...

898 0 1
hive的优化点，能够提升的效率差异
比较重要是头几个和后几个，尤其是最后两个，性能提升效果是最明显的。但是会同时开启更多的MR任务，这就需要一个平衡了。嵌套SQL并行执行优化: ...

1290 0 0
SPARK优化
1.1、分配更多资源 1.1.1、分配哪些资源？ Executor的数量每个Executor所能分配的CPU数量每个Executor所能分...

0.3 3138 3 15

hbase大规模数据写入的优化历程
业务背景：由于需要将ngix日志过滤出来的1亿+条用户行为记录存入Hbase数据库，以此根据一定的条件来提供近实时查询，比如根据用户id及一定的...

745 0 0
HBase工作原理学习
HBase工作原理学习 1 HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC S...

0.2 730 0 11