Hive中的内部表以及外部表

Hive中的Managed Table以及External Table

原文:Hive中的Managed Table以及External Table(译)

Hive有两种类型的表:

Managed Table 内部表
External Table 外部表
下面我们详细介绍这两种表.

Managed Table

这种表也被称作Internal Table.这是Hive中的默认的类型.如果你在创建表的时候没有指明Managed或者External,那么默认就会给你创建Managed Table.

Managed Table的数据,会存放在HDFS中的特定的位置中,通常是/user/hduser/hive/warehouse.当然,也不一定,看你的Hive的配置文件中是如何配置的.

我们可以使用下面的命令来创建一个Managed Table并查看:

hive> create table test_mamaged_table(context string);
OK
Time taken: 0.289 seconds
hive> describe formatted test_mamaged_table;
OK
# col_name              data_type               comment             
         
context                 string                                      
         
# Detailed Table Information         
Database:               default                  
Owner:                  hadoop                   
CreateTime:             Wed May 30 04:50:41 PDT 2018     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://hadoop001:8020/user/hive/warehouse/test_mamaged_table     
Table Type:             MANAGED_TABLE            
Table Parameters:        
    transient_lastDdlTime   1527681041          
         
# Storage Information        
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe   
InputFormat:            org.apache.hadoop.mapred.TextInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat   
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:         
    serialization.format    1                   
Time taken: 0.137 seconds, Fetched: 26 row(s)

在上图中,我们可以看到,Table Type那里是Managed Table,这就表示我们确实创建了一个Managed类型的Table.

我们使用下面的命令,从本地文件系统中加载一些数据到这张表中:

hive> load data local inpath '/home/hadoop/data/hello.txt' into table test_mamaged_table;
Loading data to table default.test_mamaged_table
Table default.test_mamaged_table stats: [numFiles=1, totalSize=34]
OK
Time taken: 0.563 seconds

通过下面的命令,查看这张表在HDFS中的位置:

[hadoop@hadoop001 data]$ hdfs dfs -ls hdfs://hadoop001:8020/user/hive/warehouse/test_mamaged_table
18/05/30 04:53:51 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rwxr-xr-x   1 hadoop supergroup         34 2018-05-30 04:52 hdfs://hadoop001:8020/user/hive/warehouse/test_mamaged_table/hello.txt

我们可以从上图看到该表在HDFS中的位置.
下面我们删除这张表,我们成功地删除了这张表;我们再查看一下这种表在HDFS中是否存在:

hive> show tables;
OK
dept
emp
hive_wordcount
test_external_table
test_mamaged_table
Time taken: 0.023 seconds, Fetched: 5 row(s)
hive> drop table test_mamaged_table;
OK
Time taken: 0.873 seconds

[hadoop@hadoop001 data]$ hdfs dfs -ls hdfs://hadoop001:8020/user/hive/warehouse/test_mamaged_table
18/05/30 04:56:39 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
ls: `hdfs://hadoop001:8020/user/hive/warehouse/test_mamaged_table': No such file or directory

在上图中,我们可以看到,表和它的内容,都从HDFS中删除了.

External Table

External Table特别适用于想要在Hive之外使用表的数据的情况.当你删除External Table时,只是删除了表的元数据,它的数据并没有被删除.

我们创建一张External Table,并查看一下它的结构:

hive> create external table test_external_table(Name String, Sal Int) row format delimited fields terminated by ',';
OK
Time taken: 0.093 seconds
hive> describe formatted test_external_table;
OK
# col_name              data_type               comment             
         
name                    string                                      
sal                     int                                         
         
# Detailed Table Information         
Database:               default                  
Owner:                  hadoop                   
CreateTime:             Wed May 30 04:45:34 PDT 2018     
LastAccessTime:         UNKNOWN                  
Protect Mode:           None                     
Retention:              0                        
Location:               hdfs://hadoop001:8020/user/hive/warehouse/test_external_table    
Table Type:             EXTERNAL_TABLE           
Table Parameters:        
    EXTERNAL                TRUE                
    transient_lastDdlTime   1527680734          
         
# Storage Information        
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe   
InputFormat:            org.apache.hadoop.mapred.TextInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat   
Compressed:             No                       
Num Buckets:            -1                       
Bucket Columns:         []                       
Sort Columns:           []                       
Storage Desc Params:         
    field.delim             ,                   
    serialization.format    ,                   
Time taken: 0.078 seconds, Fetched: 29 row(s)

从上图中,我们可以看到,表的类型是"External Table".

现在我们同样从文件系统中加载一些数据到这张表中:

hive> load data local inpath '/home/hadoop/data/hello.txt' into table test_external_table;
Loading data to table default.test_external_table
Table default.test_external_table stats: [numFiles=1, totalSize=34]
OK
Time taken: 0.29 seconds

#我们可以通过下面的命令查看它的位置
[hadoop@hadoop001 data]$ hdfs dfs -ls hdfs://hadoop001:8020/user/hive/warehouse/test_external_table
18/05/30 04:58:23 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rwxr-xr-x   1 hadoop supergroup         34 2018-05-30 04:57 hdfs://hadoop001:8020/user/hive/warehouse/test_external_table/hello.txt

删除它

hive> show tables;
OK
dept
emp
hive_wordcount
test_external_table
Time taken: 0.022 seconds, Fetched: 4 row(s)
hive> drop table test_external_table;
OK
Time taken: 0.577 seconds

再检查一下,你可以看到,即使我们删除了表,它的数据仍然存在:

[hadoop@hadoop001 data]$ hdfs dfs -ls hdfs://hadoop001:8020/user/hive/warehouse/test_external_table
18/05/30 05:04:08 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rwxr-xr-x   1 hadoop supergroup         34 2018-05-30 04:57 hdfs://hadoop001:8020/user/hive/warehouse/test_external_table/hello.txt

什么时候使用哪种表?

Managed Table

数据是临时数据
外部的程序无法访问这些数据
数据会随着表的删除而删除

External Table

数据可以被外部程序访问
你不能基于已经存在的表再创建表
表被删除时,数据不会被删除

3 内部表和外部表的区别

内部表和外部表的区别

内部表对数据拥有所有权,将内部表数据保存在hive.metastore.warehouse.dir目录下,删除内部表时,相应的数据也会被删除
Hive 对外部表的数据仅仅拥有使用权;外部表只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE…LOCATION),实际数据是存储在LOCATION后面指定的 HDFS 路径中,并不会移动到数据仓库目录中

4、使用场景是什么?

外部表使用场景:导入hdfs中的源数据
内部表使用场景:存放Hive处理的中间表、结果表

如:
每天将日志数据传入HDFS,一天一个目录;Hive基于流入的数据建立外部表,将每天HDFS上的原始日志映射到外部表的天分区中;
在外部表基础上做统计分析,使用内部表存储中间表、结果表,数据通过SELECT+INSERT进入内部表

分区和分桶

Boy-20180530

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容