You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

2.2 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

数据仓库可以理解为一个较大的数据集合,主要用于数据分析和决策支持。 数仓不生产数据,所有数据来源于业务系统。业务系统数据较为分散、异构、不统一所以需要数仓进行数据整合。

一、数仓分层

数仓分层是为了更好的组织、管理、维护数据分层只是解偶的手段之一。通常情况下数仓分为3到4层即可根据公司业务复杂度进行调整。DWS和ADS层的表结构不是一次成型的会在业务过程中逐渐变化。 数仓分层本质是空间换时间的思想,通过数据冗余将复杂的数据处理统计过程分摊到对应层。

名称 用途 说明 涉及问题点
ODS 数据接入层 负责接入其他业务系统的原始数据 异构数据源、数据库转换、ETL
DWD 清洗层 ODS层清洗处理后的符合数仓标准的数据 数据对标、自动化清洗、数据量统计
DWS 汇总层 基于业务指标对DWD表进行汇总得到的宽表、可通过ADS层反推表结构 业务梳理、需考虑应用层需求
ADS 应用层 对DWS层宽表再次提取出能直接在业务或BI中使用的数据通常不会包含太多维度

数据分层的场景:

  1. 公司业务简单且相对比较固定数据涞源不多结构也清晰需求也不多可以使用ods+dwd+dws三层足矣ods起到解耦业务数据库+异构数据源的问题DWD解决数据脏乱差的问题DWS直接面向前台业务需求。
  2. 公司业务一般复杂每年跟着战略变那中规中矩的设计4层多一层DWB(轻度汇总层)。每年按照战略调整一次,工作量也不会太大,最重要的是能够保证底层结构的稳定和数据分析的可持续性。
  3. 公司业务非常复杂业务线众多那就在4层基础上加一层。

二、数据治理

  • 数据接入、清洗标准
  • 标准表定义

三、ETL

  • DataX

四、数据分析

  • 疫情人员伴随

  • 区域伴随

  • 人员轨迹

五、大数据组件

5.1 Hadoop

5.2 Hbase

5.3 Hive

5.4 Kafka