大数据Clouder认证:使用MaxCompute进行数据质量核查
度量的两个方面:
1、设计质量度量
数据资产目录 数据标准 数据模型 数据分布
2、执行质量度量
完整性 准确性 唯一性 一致性 及时性 有效性 (单列、跨列、跨行、跨表)
数据质量设计原则
1、关键环节注入监控流程 比如数据源接入、多维模型等
2、重要数据:事务数据、主数据、基础数据(数据字典)要进入监控流程;持续稳定的数据可以退出监控流程;价值密度低可以退出监控流程;
数据质量四部曲
策划、控制、度量、改进
扩展知识,实践经验:
打分机制:
指定表的质量KPI,针对表的故障率进行数据质量运营。
最主要的数据质量度量:
1、完整性:空值,数据量(是否漏传)等;
2、一致性:各层前后结果是否一致;
3、是否重复性:数据在单层是否重复
工具:
Griffin 功能有Bug
Shell+Hive 建议(通过Web界面化)
各层校验规则:
ods层:
- 增量数据记录数(短期)设置合理值
- 全量数据记录数(长期)设置合理值
- 空值:
-重复值:使用不为空的字段校验
dwd层:
- 一致性 将需要一致性检测的字段,与ods层做关联join
- 重复性 使用不为空的字段校验
- 空值不需要检验:因为已经做了一致性校验了
dws/dwt层:
- 思路跟ods层一样
ads层:
- 判定指标是否在合理范围内,需设置合理值,与之对比,如超预期,展现层不体现该指标,并触发质量问题排查追踪(atlas追踪血缘关系,触发ETL流程)
数据质量修复:
1、数据丢失:按DT分区,重新导入
2、数据重复:分区表:按DT分区,删除分区所有数据,重新导入;全量表:重导一次
3、指标不符合正常规律:atlas追踪血缘关系,触发ETL流程