Hbase 关联 hive 表

Hbase 是可以支持实时查询的非关系行数据库,采用列存储的同时也是的直接查询的数据不太直观,对此,我们可以将之关联hive表,通过HQL大到查询Hbase的目的

Hbase 关联 hive 表有两种方式(通过建立hive管理表 和 外表的方式实现)

通过管理表

1、创建hive-hbase 管理表:

drop table tbl_hive_mange;

create table tbl_hive_mange

(key String,

dict_id String,

city_id String,

city_name String,

city_code String,

group_id String,

group_name String,

area_code String,

bureau_id String,

sort String,

bureau_name String)

row format delimited

fields terminated by '|'

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,

    info:dict_id,

    info:city_id,

    info:city_name,

    info:city_code,

    info:group_id,

    info:group_name,

    info:area_code,

    info:bureau_id,

    info:sort,

    info:bureau_name")

TBLPROPERTIES("hbase.table.name" = "tbl_hive_mange");

创建hive-hbase 管理表

2、创建普通的 hive 管理表

drop table tbl_hive_mange_1;

create table tbl_hive_mange_1

(key String,

dict_id String,

city_id String,

city_name String,

city_code String,

group_id String,

group_name String,

area_code String,

bureau_id String,

sort String,

bureau_name String)

row format delimited

fields terminated by '|'

STORED AS TEXTFILE;

创建普通的 hive 管理表

3、向 tbl_hive_mange_1 中添加数据

load data inpath 'hdfs:/ns1/user/hive/warehouse/xx.db/a...' into table tbl_hive_mange_1;

向 tbl_hive_mange_1 中添加数据

4、将 tbl_hive_mange_1 的数据添加到 tbl_hive_mange

insert overwrite table tbl_hive_mange select * from tbl_hive_mange_1;

将 tbl_hive_mange_1 的数据添加到 tbl_hive_mange

目前为止:

建立了一张Hbase的表:tbl_hive_mange

并关联了 hive 表:tbl_hive_mange

同时将hive表 tbl_hive_mange_1 的数据添加到了 tbl_hive_mange

可以通过hivev表:tbl_hive_mange查询Hbase表:tbl_hive_mange 数据

注:

a:建立hive-hbase 管理表 tbl_hive_mange 后不能直接通过load data 的方式添加数据

hive> load data inpath 'hdfs://ns1/user/hive/warehouse/xx.db/tbl_hive_test' into table tbl_hive_test;

FAILED: SemanticException [Error 10101]: A non-native table cannot be used as target for LOAD

load data

b:通过 desc formatted tbl_hive_mange 可以看到在默认的hive数据存储路径下存在制定文件夹,但是却没有数据,表明这个数据是存在hbase下面的。

desc formatted tbl_hive_mange

c:删除表操作

先删除hbase(disabled->drop)

hbase(main):003:0> disable 'tbl_hive_mange'

0 row(s) in 2.5610 seconds

hbase(main):004:0> drop 'tbl_hive_mange'

0 row(s) in 1.3140 seconds

删除表操作

此时show tables 在hive里面能看到tbl_hive_mange 但是已经没有数据了,用show tables还能查出来。但是用select * from tbl_hive_mange 查询的时候报错

show tables

此时mysql中TBLS还有hive表的信息,执行drop table  tbl_hive_mange 报错。

drop table

继续show tables时,发现表已经不在了。TBLS里面也没有hive表信息了。

通过管理表


1、建立外部表(hive),关联存在hbase表

drop table tbl_hive_xternal;

create xternal table tbl_hive_xternal

(key String,

dict_id String,

city_id String,

city_name String,

city_code String,

group_id String,

group_name String,

area_code String,

bureau_id String,

sort String,

bureau_name String)

row format delimited

fields terminated by '|'

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES("hbase.columns.mapping" = ":key,

    info:dict_id,

    info:city_id,

    info:city_name,

    info:city_code,

    info:group_id,

    info:group_name,

    info:area_code,

    info:bureau_id,

    info:sort,

    info:bureau_name")

TBLPROPERTIES("hbase.table.name" = "tbl_hive_xternal");

建立外部表(hive),关联存在hbase表

2、创建普通的 hive 管理表

drop table tbl_hive_xternal_1;

create table tbl_hive_xternal_1

(key String,

dict_id String,

city_id String,

city_name String,

city_code String,

group_id String,

group_name String,

area_code String,

bureau_id String,

sort String,

bureau_name String)

row format delimited

fields terminated by '|'

STORED AS TEXTFILE;

创建普通的 hive 管理表

3、向 tbl_hive_xternal_1 中添加数据

load data inpath 'hdfs:/ns1/user/hive/warehouse/xx.db/a...' into table tbl_hive_xternal_1;

向 tbl_hive_xternal_1 中添加数据

4、将 tbl_hive_xternal_1 的数据添加到 tbl_hive_xternal

insert overwrite table tbl_hive_xternal select * from tbl_hive_xternal_1;

将 tbl_hive_xternal_1 的数据添加到 tbl_hive_xternal

目前为止:

建立了 hive 外部表表: tbl_hive_xternal

同时将hive表 tbl_hive_xternal_1 的数据添加到了 tbl_hive_xternal

可以通过hivev表: tbl_hive_xternal 查询Hbase表: tbl_hive_xternal 数据


注:

a:使用外部表需要确保 hbase的表存在,同时在建立hive标的时候可以指定hbase中不存在的列

b:desc formatted tbl_hive_xternal可以看到存储文件的路径,但是真实的数据存储在hbase

c:删除操作:删除hive表对hbase操作没有影响; 但是删除hbase表后hive查询会报错(数据存hbase)

推荐阅读更多精彩内容