240 发简信
  • 120
    Kafka学习

    Kafka 官网: Kafka 主要设计目标如下: 以时间复杂度为 O(1) 的方式提供消息持久化能力,即使对 TB 级以上数据也能保证常数时间...

    0.1 27 0 1
  • Airflow rest_api 插件部署

    一.描述 A plugin for Apache Airflow that exposes REST endpoints for the Com...

  • 120
    用户模型

    什么是模型? 模型是指对某一实际问题或客观事物、规律进行抽象化形式化后的表达方式。模型有目标、变量、关系。明确变量改变变量可实现目的。 构建用户...

    0.7 490 0 10
  • 120
    Spark Streaming 实现原理

    Spark Streaming 实现思路 Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表述: 可以看...

    7.8 392 0 14
  • RDD or DF获取分区编号和数据

    思考: RDD的分区怎么获取?RDD分区怎么根据数据划分分区? 例如: 首先看一下parallelize方法 1.分发一个本地Scala集合来形...

  • Spark 算子探究

    map 首先我们看看map的源码 1.withScope的作用是:首先是根据堆栈信息(Thread.currentThread.getStack...

  • 120
    JVM

    前言 JVM与计算机内存设计类似,都有一块主内存,不过JVM是以线程形式运行。 JVM执行一段代码流程 1.通过类装载系统加载字节码信息存入内存...

    0.3 23 0 1
  • 剖析Spark二次排序

    什么是二次排序 指的是在Reduce阶段对某个键关联的值排序。 解决方案 解决方案至少有两种以上,但是首先要考虑一个问题,既然使用spark或者...