Hive调优

本文种记录的大多是开源版本hive调优方式
我也会补充TDH集群Inceptor的优化方式

面试必备技能-HiveSQL优化

Hive SQL基本上适用大数据领域离线数据处理的大部分场景.Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问.那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关.

Hive优化目标

在有限的资源下,执行效率更高

常见问题

数据倾斜
map数设置
reduce数设置
其他

Hive执行

HQL --> Job --> Map/Reduce

执行计划

explain [extended] hql
样例

select col,count(1) from test2 group by col;
explain select col,count(1) from test2 group by col;

各个阶段

Hive表优化

分区
- set hive.exec.dynamic.partition=true;
- set hive.exec.dynamic.partition.mode=nonstrict;
- 静态分区(单值、范围)
- 动态分区(单值)
分桶(小小经验)
- set hive.enforce.bucketing=true;
- set hive.enforce.sorting=true;
数据
- 相同数据尽量聚集在一起

Hive Job优化

并行化执行

-- 每个查询被hive转化成多个阶段,有些阶段关联性不大,则可以并行化执行,减少执行时间
set hive.exec.parallel= true;
set hive.exec.parallel.thread.numbe=8;

本地化执行

-- job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
-- job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
-- job的reduce数必须为0或者1
set hive.exec.mode.local.auto=true;

当一个job满足如下条件才能真正使用本地模式:

job合并输入小文件

-- 合并文件数由mapred.max.split.size限制的大小决定
set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

job合并输出小文件

-- 当输出文件平均小于该值,启动新job合并文件
set hive.merge.smallfiles.avgsize=256000000;
-- 合并之后的文件大小
set hive.merge.size.per.task=64000000;

JVM重利用
set mapred.job.reuse.jvm.num.tasks=20;

JVM重利用可以使得Job长时间保留slot,直到作业结束,这在对于有较多任务和较多小文件的任务是非常有意义的,减少执行时间.当然这个值不能设置过大,因为有些作业会有reduce任务,如果reduce任务没有完成,则map任务占用的slot不能释放,其他的作业可能就需要等待.
压缩数据

set hive.exec.compress.output=true;
set mapred.output.compreession.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;
set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.intermediate.compression.type=BLOCK;

中间压缩就是处理hive查询的多个job之间的数据,对于中间压缩,最好选择一个节省cpu耗时的压缩方式
hive查询最终的输出也可以压缩

Hive Map优化

set mapred.map.tasks =10; 无效

默认map个数
default_num=total_size/block_size;
期望大小
goal_num=mapred.map.tasks;
设置处理的文件大小
split_size=max(mapred.min.split.size,block_size);
split_num=total_size/split_size;
计算的map个数
compute_map_num=min(split_num,max(default_num,goal_num))

经过以上的分析,在设置map个数的时候,可以简答的总结为以下几点：

增大mapred.min.split.size的值
如果想增加map个数,则设置mapred.map.tasks为一个较大的值
如果想减小map个数,则设置mapred.min.split.size为一个较大的值
- 情况1：输入文件size巨大,但不是小文件
- 情况2：输入文件数量巨大,且都是小文件,就是单个文件的size小于blockSize.这种情况通过增大mapred.min.split.size不可行,需要使用combineFileInputFormat将多个input path合并成一个InputSplit送给mapper处理,从而减少mapper的数量.
map端聚合
set hive.map.aggr=true;
推测执行
mapred.map.tasks.apeculative.execution

Hive Shuffle优化

Map端

io.sort.mb
io.sort.spill.percent
min.num.spill.for.combine
io.sort.factor
io.sort.record.percent

Reduce端

mapred.reduce.parallel.copies
mapred.reduce.copy.backoff
io.sort.factor
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent

Hive Reduce优化

需要reduce操作的查询
group by,join,distribute by,cluster by...
order by比较特殊,只需要一个reduce
sum,count,distinct...
聚合函数
高级查询
推测执行

mapred.reduce.tasks.speculative.execution
hive.mapred.reduce.tasks.speculative.execution

Reduce优化

numRTasks = min[maxReducers,input.size/perReducer]
maxReducers=hive.exec.reducers.max
perReducer = hive.exec.reducers.bytes.per.reducer
hive.exec.reducers.max -- 默认: 999
hive.exec.reducers.bytes.per.reducer -- 默认: 1G
set mapred.reduce.tasks=10; -- 直接设置
计算公式

Hive查询操作优化

common join

-- common join也叫做shuffle join,reduce join操作.
-- 这种情况下生再两个table的大小相当,但是又不是很大的情况下使用的.
-- 具体流程就是在map端进行数据的切分,一个block对应一个map操作,然后进行shuffle操作,把对应的block shuffle到reduce端去,再逐个进行联合,这里优势会涉及到数据的倾斜,大幅度的影响性能有可能会运行speculation
-- 如果是Join过程出现倾斜,应该设置为true
set hive.optimize.skewjoin=true;

-- 这个是join的键对应的记录条数超过这个值则会进行优化
set hive.skewjoin.key=100000;

map join:

-- 把小的表加入内存,可以配置这个参数,使hive自动根据sql,选择使用common join或者map join.
-- map join并不会涉及reduce操作.map端join的优势就是在于没有shuffle
set hive.auto.convert.join = true;
-- 小表的最大文件大小,默认为25000000,即25M
set hive.mapjoin.smalltable.filesize = 25000000;

关联参考

-- 是否将多个mapjoin合并为一个
set hive.auto.convert.join.noconditionaltask = true;
-- 多个mapjoin转换为1个时,所有小表的文件大小总和的最大值.
set hive.auto.convert.join.noconditionaltask.size = 10000000;

-- 如果是Join过程出现倾斜,应该设置为true
set hive.optimize.skewjoin=true;

-- 这个是join的键对应的记录条数超过这个值则会进行优化
set hive.skewjoin.key=100000;

SMBJoin(sort merge bucket)
- 两个表以相同方式划分桶
- 两个表的桶个数是倍数关系

CRETE TABLE order(cid int,price float) CLUSTERED BY(cid) INTO 3 BUCKETS;
CRETE TABLE customer(id int,first string) 
CLUSTERED BY(id) INTO 3 BUCKETS;

SELECT t.price 
FROM order t JOIN customer t2 ON t.cid=t2.id

-- join优化前查询语句
SELECT t.cid,t2.id 
FROM order t join customer t2 ON t.cid=t2.id 
WHERE t.dt='2013-12-12';

-- join优化后查询语句
SELECT t.cid,t2.id 
FROM (
SELECT cid FROM order 
WHERE dt='2013-12-12'
) t JOIN customer t2 ON t.cid=t2.id;

group by 优化

-- 如果是group by 过程出现倾斜 应该设置为true
set hive.groupby.skewindata=true;
-- 这个是group的键对应的记录条数超过这个值则会进行优化
set hive.groupby.mapaggr.checkinterval=100000;

count distinct 优化

-- 优化前查询语句
SELECT COUNT(distinct id) FROM tablename
-- 优化后查询语句
SELECT count(1) FROM (SELECT DISTINCT id FROM tablename) tmp;
SELECT count(1) FROM (SELECT id FROM tablename group by id) tmp;
-- 优化前sum语句
SELECT 
a
,sum(b)
,count(DISTINCT c)
,count(DISTINCT d)
FROM test
GROUP BY a
-- 优化后sum语句
SELECT 
a
,sum(b) AS b
,count(c) AS c
,count(d) AS d
FROM
  ( 
   SELECT a, 0 AS b, c, NULL AS d FROM test GROUP BY a, c
   UNION ALL 
     SELECT a, 0 AS b, NULL AS c, d FROM test GROUP BY a, d
   UNION ALL 
     SELECT a, b, NULL AS c, NULL AS d FROM test 
   ) tmp1
GROUP BY a;

参考
《面试必备技能-HiveSQL优化》文中错误之处,我已在本文改正
《hive中的mapjoin》
《hive入门学习：join的三种优化方式》

最后编辑于：2019.10.25 15:00:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269

Hive调优

面试必备技能-HiveSQL优化

Hive优化目标

常见问题

Hive执行

各个阶段

Hive表优化

Hive Job优化

Hive Map优化

Hive Shuffle优化

Hive Reduce优化

Hive查询操作优化

推荐阅读更多精彩内容