240 发简信
IP属地:江苏
  • Flink中实用的小知识点整理

    目录 1、Flink使用WaterMark处理乱序事件2、累加器和计数器3、Window使用4、流的切分和合并5、任务链6、Flink消费kaf...

  • Flink中指定Key的几种方式

    前言 在Flink中比如某些算子(join,coGroup,keyBy,groupBy)要求在数据元上定义key。另外有些算子操作,例如redu...

  • Resize,w 360,h 240
    决策树与随机森林及其在SparkMllib中的使用

    一.概念 决策树和随机森林:决策树和随机森林都是非线性有监督的分类模型。 决策树是一种树形结构,树内部每个节点表示一个属性上的测试,每个分支代表...

  • Spark任务输出追踪器MapOutputTracker详解

    一.什么是shuffle MapOutputTrancker用于跟踪map任务的输出状态,此状态便于reduce任务定位到map输出结果所在的节...

  • Resize,w 360,h 240
    Spark消息通信原理

    一.NettyRpcEnv主要组件 子组件TransportConf,Dispatcher,TransportClientFactory,Tra...

  • Spark中RangePartitioner的实现机制分析

    一.分区器的区别 HashPartitioner分区可能HashPartitioner导致每个分区中数据量的不均匀。 RangePartitio...

  • Resize,w 360,h 240
    Apache Kylin 从零开始构建Cube(含优化策略)

    前言 Apache Kylin采用“预计算”的模式,用户只需要提前定义好查询维度,Kylin将帮助我们进行计算,并将结果存储到HBase中,为海...

  • Resize,w 360,h 240
    Spark的数据本地化和延迟调度策略

    一.概述 Spark数据本地化即计算向数据移动,但数据块所在的Executor不一定有足够的的计算资源提供,为了让task能尽可能的以最优本地化...

  • Hive中语法规则大全,建议收藏

    一、创建/删除/修改/使用数据库 二、创建/删除/截断表 1.创建表 2.截断表和删除表 3.改变表/分区/列 三、创建/删除/更改视图 四、创...

个人介绍
愿历尽千帆,归来仍少年