You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
2.2 KiB
2.2 KiB
数据仓库可以理解为一个较大的数据集合,主要用于数据分析和决策支持。 数仓不生产数据,所有数据来源于业务系统。业务系统数据较为分散、异构、不统一所以需要数仓进行数据整合。
一、数仓分层
数仓分层是为了更好的组织、管理、维护数据,分层只是解偶的手段之一。通常情况下数仓分为3到4层即可(根据公司业务复杂度进行调整)。DWS和ADS层的表结构不是一次成型的,会在业务过程中逐渐变化。 数仓分层本质是空间换时间的思想,通过数据冗余将复杂的数据处理统计过程分摊到对应层。
名称 | 用途 | 说明 | 涉及问题点 |
---|---|---|---|
ODS | 数据接入层 | 负责接入其他业务系统的原始数据 | 异构数据源、数据库转换、ETL |
DWD | 清洗层 | ODS层清洗处理后的,符合数仓标准的数据 | 数据对标、自动化清洗、数据量统计 |
DWS | 汇总层 | 基于业务指标对DWD表进行汇总得到的宽表、可通过ADS层反推表结构 | 业务梳理、需考虑应用层需求 |
ADS | 应用层 | 对DWS层宽表再次提取出能直接在业务或BI中使用的数据,通常不会包含太多维度 |
数据分层的场景:
- 公司业务简单,且相对比较固定,数据涞源不多,结构也清晰,需求也不多,可以使用ods+dwd+dws,三层足矣,ods起到解耦业务数据库+异构数据源的问题,DWD解决数据脏乱差的问题,DWS直接面向前台业务需求。
- 公司业务一般复杂,每年跟着战略变,那中规中矩的设计4层,多一层DWB(轻度汇总层)。每年按照战略调整一次,工作量也不会太大,最重要的是能够保证底层结构的稳定和数据分析的可持续性。
- 公司业务非常复杂,业务线众多,那就在4层基础上加一层。
二、数据治理
- 数据接入、清洗标准
- 标准表定义
三、ETL
- DataX
四、数据分析
-
疫情人员伴随
-
区域伴随
-
人员轨迹