背景 对于亿级规模的数据量,使用传统数据库分析会比较低效且耗时。 这时就引入了OLAP引擎,本文以impala和spark为主进行介绍。 OLAP典型技术组件 impala是...
背景 对于亿级规模的数据量,使用传统数据库分析会比较低效且耗时。 这时就引入了OLAP引擎,本文以impala和spark为主进行介绍。 OLAP典型技术组件 impala是...
真真假假一查便知。 笔者以武汉为例说一下如何查证。 搜索武汉房管局,第一条就是,点击即可。 找到办事服务,点击商品房项目查询 找到你想要的楼盘 查看楼盘表 预售情况一目了然,...
1.使用explain查看执行计划 建表优化 2.开启动态分区配置,使用分区过滤3.分桶表 语法优化 a. 分区过滤和列过滤,减少数据量和降低读取开销 b. group by...
Spark UI 上面显示的 Storage Memory 可用内存其实等于 Execution 内存和 Storage 内存之和,也就是 usableMemory * sp...
hive timestamp 与impala显示不一致 hive ''和null 不一致 导入hive \n\r 特殊字符 hive 动态分区插入
知音号里面的剧情是上世纪二三十年代的大武汉,船上有不同的角色,名伶、报童、商贾…… 你可以自由地穿梭在各个角落,在演员之间驻足,甚至与他们共舞对戏。你跟着的演员不同,在表演中...
传统的离线 Batch SQL (面向有界数据集的 SQL)有三种基础的实现方式,分别是 Nested-loop Join(嵌套循环)、Sort-Merge Join 和 H...
Window概述 streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而window是一种切割无限数据为...
定义 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。 s...