Greenplum 数据库 之 拉链表 的实现

  历史拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓历史拉链表,就是记录一个事务从开始一直到当前状态的所有变化的信息,拉链表可以避免按每一天存储所有记录造成的海量存储问题,同事也是处理缓慢变化数据的一种常见方式。

一、概念

  在拉链表中,每一条数据都有一个生效日期(sdate) 和 失效日期(edate)。假设在一个用户表中,在 2019年10月8日 新增了两个用户,则这两条记录的生效时间为当天,由于到 2019年10月8日 为止,这两条记录还没有被修改过,所以失效时间为无穷大,这里设置为数据库中的最大值(2999-12-31),如图所示:
image.png
  第二天(2019-10-09),用户 1001 被删除,用户 1002 的电话号码被修改成 16500000006。为了保留历史状态,用户 1001 的失效时间被修改成 2019-10-09,用户 1002 则变成两条记录,如图所示:
image.png
  第三天(2019-10-10),又新增了用户 1003,则用户表数据如图:
image.png

  如果要查询最新的数据,那么只要查询失效时间为 2999-12-31 的数据即可,如果要查询 10月8号 的历史数据,则筛选生效时间 <= 2019-10-08 并且失效时间 > 2019-10-08 的数据即可;如果查询的是 10月9日的数据,那么筛选条件则是生效时间 <= 2019-10-09 并且失效时间 > 2019-10-09;以此类推。

二、表的创建

  临时源表 T_FIN_ACCTION_SRC,接收其它数据库(如 oracle)表推送过来的数据 ,表结构和源数据库的表结构一致

--源表
create table T_FIN_ACCTION_SRC(
    eNo varchar(6),
    eName varchar(10),
    ePhone varchar(11),
    eData_date date
);

  目标表 ( 即拉链表 ) T_FIN_ACCTION_TAR,这里注意的是:拉链表把源表的时间字段改成了 生效时间 和 失效时间 哦

--拉链表
create table T_FIN_ACCTION_TAR(
    eNo varchar(6),
    eName varchar(10),
    ePhone varchar(11),
    sdate date,
    edate date
);

三、存储过程的创建

  在这里为了方便阅读以及代码的编写,先写出整体的存储过程架构,然后我们在一步一步添加代码:

-- 将当前时间传入 (也可以传入昨天的时间哦,随机应变,如果传入的时间是今天则使用中要将时间减一,因为我们要处理的是昨天的数据)
create or replace function My_FIN_GL_SUBJECT_PRO(IN P_TODAY VARCHAR)
    returns void 
as $$ 
declare

begin   
            --1.目标表中没有此主键的则确定为新增  -  新增

            --2.源表中没有该ID则进行关链  -  删除

            --3.修改
            --3.1 闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天
            
            --3.2 开链:目标表中新增一条修改的数据,更新结束日期为无穷大
                
end;
$$ 
language plpgsql;

四、拉链的过程实现

1.目标表中没有此主键的则确定为新增 - 新增
insert into gplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)  
                     select s.eNo,s.eName,s.ePhone,s.eData_date,to_date('2999-12-31','yyyy-mm-dd')   
                                    from gplcydb.public.T_FIN_ACCTION_SRC s 
                                         where s.eData_date=(to_date(P_TODAY,'yyyy-mm-dd') - 1) 
                                         and not exists(
                                                select 1 from gplcydb.public.T_FIN_ACCTION_TAR t 
                                                        where 
                                                            s.eNo=t.eNo 
                                                        and s.eName=t.eName
                                                        and s.ePhone=t.ePhone
                                        );


2.源表中没有该ID则进行关链 - 删除
update gplcydb.public.T_FIN_ACCTION_TAR a set edate=(to_date(P_TODAY,'yyyy-mm-dd')-1) 
                     where not exists(
                         select 1 from gplcydb.public.T_FIN_ACCTION_SRC s 
                                        where 
                                            s.eNo=a.eNo 
                                        and a.edate=to_date('2999-12-31', 'yyyy-mm-dd') 
                                    );


3.修改

3.1 闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天

update gplcydb.public.T_FIN_ACCTION_TAR b set edate=(to_date(P_TODAY,'yyyy-mm-dd')-1)    
                     where b.edate=to_date('2999-12-31','yyyy-mm-dd')   
                           and exists(
                               select 1 from gplcydb.public.T_FIN_ACCTION_SRC s 
                                      where 
                                            s.eNo = b.eNo and b.sdate < (to_date(P_TODAY,'yyyy-mm-dd')-1) 
                                      and (
                                            s.eName <> b.eName or s.ePhone <> b.ePhone 
                                          ) 
                            );


3.2 开链:目标表中新增一条修改的数据,更新结束日期为无穷大

insert into gplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)  
                     select s.eNo,s.eName,s.ePhone,(to_date(P_TODAY,'yyyy-mm-dd') - 1),to_date('2999-12-31','yyyy-mm-dd')   
                            from gplcydb.public.T_FIN_ACCTION_SRC s 
                                 where 
                                     s.eData_date=(to_date(P_TODAY,'yyyy-mm-dd') - 1) 
                                 and exists( --处理数据断链新增的情况
                                        select 1 from (
                                                        select eNo,sdate,max(edate) end_date 
                                                                from gplcydb.public.T_FIN_ACCTION_TAR group by eNo,sdate) t 
                                                                        where 
                                                                            t.eNo=s.eNo 
                                                                        and s.eData_date = t.sdate 
                                                                        and t.end_date <= to_date(P_TODAY,'yyyy-mm-dd') 
                                );


五、测试

  要测试拉链函数,首先我们必须要在原表中插入数据(模拟一天全量的数据):

insert into T_FIN_ACCTION_SRC values('1001','feiniu','18500000001','2019-10-10');
insert into T_FIN_ACCTION_SRC values('1002','beibei','18400000005','2019-10-10');
insert into T_FIN_ACCTION_SRC values('1003','yuyu','13800000005','2019-10-10');

调用函数进行拉链测试:

select My_FIN_GL_SUBJECT_PRO('2019-10-11');  --调用函数

select * from T_FIN_ACCTION_TAR;   --查询拉链表

测试结果如下图:
image.png

  插入第二天全量数据,这些数据中有新增的数据,有源数据被删除,还有源数据被修改,完整的模拟sql语句如下:

delete from T_FIN_ACCTION_SRC where eno='1003';
insert into T_FIN_ACCTION_SRC values('1004','kongkong','13800000666','2019-10-11');
update T_FIN_ACCTION_SRC set ename='xiaofeifei' where eno='1001';

select * from T_FIN_ACCTION_SRC;

原表的效果图如下:
image.png

接下来执行拉链函数:

--执行拉链函数
select My_FIN_GL_SUBJECT_PRO('2019-10-12');

select * from T_FIN_ACCTION_TAR;  --查询目标表

效果图如下:
image.png

  到此,我们的拉链实现就完成咯,哈哈哈,容易把,当初还用了很多个临时表,网上的资料也基本没有,琢磨了好久终于可以实现了,希望能帮助到你,如果对你有用可以给我赞哦;转载请标明出处,原创不易,谢谢。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容