240 发简信
  • 120
    向量化与编译执行浅析

      向量化执行和编译执行是目前主流的两种数据库执行引擎优化手段,本文从以下几个方面对向量化执行和编译执行进行浅析。一、以当代CPU主要特性为背景...

    0.2 65 0 1
  • 120
    一文详解分布式数据库并发控制

      并发控制是数据库系统实现的一个难点。本文分为三个部分对目前的分布式并发控制技术进行浅析。一、从用户并发访问可能引起的各种问题入手,引出数据库...

    0.4 83 2 1
  • hive迷案之消失的分区文件

    “有人把我一个分区表的某个分区数据文件删掉了,这个能查出来么?”“具体什么情况?”“我有一个表存了近两年的数据,按天分区,执行show part...

  • 120
    LSM树原理、应用与优化

    前言:为什么传统数据库使用B树较多,而大数据存储使用LSM树较多?kudu为什么比hbase更适合支持OLAP查询? 上一篇场景和挑战 提到数据...

  • 浅谈大数据原理(一) 场景和挑战

    上一篇书评向大家推荐了 Desinging Data-Intensive Applications 这本书。由这本书启发,我也想整理一下自己在大...

  • 120
    Hive 子进程死循环问题排查

    线上有个任务失败了,查看工作机器上运行的进程情况,有个进程比较陌生,如下图 这个问题的详细描述:https://marc.info/?l=ope...

    0.1 70 0 1
  • 浅谈大数据原理 (Designing Data-Intensive Applications 书评)

    大数据生态的系统和技术层出不穷,我想简单罗列几个都有一种不知从何列起的感觉。最开始我们可能会先去看看hadoop,了解一套成熟的分布式数据存储和...

  • 120
    Calcite 原理解析

    Apache Calcite 是独立于存储与执行的SQL解析、优化引擎,广泛应用于各种离线、搜索、实时查询引擎,如Drill、Hive、Kyli...

  • 120
    hive迷案之数据异常

    hive运行一个查询,可能会由于各种原因失败,但不应该出现执行成功,但数据结果不正确。同样的sql查询,同样的数据,却出现了某一次查询,没有报错...