240 发简信
IP属地:北京
  • Resize,w 360,h 240
    spark开发调优

    开发调优原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化Spark的持久化级别原则四:尽量避免使用...

  • Resize,w 360,h 240
    HDFS架构

    1.hadoop1.x hdfs架构图 3.hdfs写流程客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件b...

  • Resize,w 360,h 240
    HDFS简介

    HDFS是传统的Master-Slave架构:一个集群由一个Master节点和若干个Slave节点组成。在HDFS中,Master节点称为Nam...

  • Resize,w 360,h 240
    kafka 架构

    https://www.cnblogs.com/cyfonly/p/5954614.html 2.1 拓扑结构 2.2 相关概念 1.produ...

  • Resize,w 360,h 240
    spark数据倾斜

    一、数据倾斜 数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时,数据倾斜一般发生在shuffle过程中,因为Spa...

  • Resize,w 360,h 240
    hive的优化点,能够提升的效率差异

    比较重要是头几个和后几个,尤其是最后两个,性能提升效果是最明显的。但是会同时开启更多的MR任务,这就需要一个平衡了。 嵌套SQL并行执行优化: ...

  • SPARK优化

    1.1、 分配更多资源 1.1.1、分配哪些资源? Executor的数量 每个Executor所能分配的CPU数量 每个Executor所能分...

    0.3 3138 3 15
  • hbase大规模数据写入的优化历程

    业务背景:由于需要将ngix日志过滤出来的1亿+条用户行为记录存入Hbase数据库,以此根据一定的条件来提供近实时查询,比如根据用户id及一定的...

  • Resize,w 360,h 240
    HBase工作原理学习

    HBase工作原理学习 1 HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC S...

    0.2 730 0 11