impala在parquet文件格式上执行count(*)操作

parquet是一个支持列式存储的文件格式,对于大数据量,多维来说,如果只查询某些具体维来说,有很好的效率。具体体现在自身列式存储,同一列的数据顺序存放,在取某一列数据时,不需要像行式存储那样把整个数据行都查询出来,大大减少了IO。

parquet的详解可以参考:

列存储格式Parquet浅析

深入分析Parquet列式存储格式

里面讲的还是挺详细的,parquet是怎么设计的,怎么存储数据和schema的,都有很好的讲解。

parquet 文件格式

在我使用impala查询parquet数据时,遇到一个现象,具体为:

1,select dt, count(*) from table where dt between '20170701' and '20170731' group by dt ; dt是分区在cm管理台看到impala读取hdfs数据只有8M;

count(*) 读取HDFS字节数为8.2M

2, select dt, count(id) from table where dt between '20170701' and '20170731' group by dt ; 将count* 换成了某一具体column,这时候impala读取hdfs数据10.9G;

3,select dt, count(id),sum(balance)  from table where dt between '20170701' and '20170731' group by dt; 添加了sum(balance), 这时候impala读取hdfs数据15.6G.

table 整体数据量在20G

从2,3语句可以看出,多了一个column,impala在查询时读取parquet文件数据量确实增大了,也说明了parquet在read时,只需要读取所需要的column,而不是像行式存储将所有column都读取出来,减少了IO,说明列式存储能够很好的进行column pruning。但是对于第一条语句count(*) 来说,却只有很少的8M数据,自己有点疑惑,为何会这么少?  首先count(*) 和 count(column) 在impala里语义有区别。

The notation COUNT(*) includes NULL values in the total.

The notation COUNT(column_name) only considers rows where the column contains a non-NULL value.

从语义上来说,count(column) 是需要查看count的column字段是否为null,不是null的才进行count计算,所以impala会读取id字段的数据,而count(*)是不在乎具体是否是null,而且读取的数据量如此之少,很有可能就是直接读取的元数据信息中的row_number. 那么它又是读取的哪里的元数据信息呢,impala catalog中的? 还是 parquet数据格式中footer里面的row numbers呢? 

因为从cm中的确看到了impala从hdfs读取了数据,所以可以判断并非直接从impala元数据中获取,所以接下来自己准备亲自通过读取parquet文件中 filemetadata 来看下是否真的通过parquet文件中的元数据获得。

其中一些关键代码:

ParquetMetadata readFooter = ParquetFileReader.readFooter(conf, path, ParquetMetadataConverter.NO_FILTER);

System.out.println(readFooter.toString());

List blockMeta = readFooter.getBlocks();

for(BlockMetaData bl : blockMeta) {

     System.out.println(bl.getRowCount());

}

这样就获取了parquet文件元数据信息中的row number。在获取具体某一dt (20170720)目录下parquet文件,然后通过将row number全部加起来,发现与select count(*) from table where dt = ‘20170720’ 数值一模一样,且通过查看cm后台,发现读取的HDFS数据量为300kb,之前读取一个月的数据量为8M,300*30~= 8M ,也基本吻合。


通过count(*) 计算得到的结果
通过直接读取parquet中的FileMetadata信息中的row number加和
cm中执行count(*) 读取HDFS数据字节数

综上,当impala 进行count(*) 计算时,如果数据文件是parquet,impala直接读取parquet中的fileMetadata信息,从中取出row count,而不会进行具体的取column数值计算。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,012评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,589评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,819评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,652评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,954评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,381评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,687评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,404评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,082评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,355评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,880评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,249评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,864评论 3 232
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,007评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,760评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,394评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,281评论 2 259

推荐阅读更多精彩内容