返回

数据仓库体系DWM,为实时大数据体系的中的数据计算复用工作

后端

DWM层在实时大数据体系中的重要性

DWM层是实时数据仓库中的一个重要组成部分,它负责将DWD层的数据进行清洗、转换、聚合和关联,为DWS层提供高质量的数据服务。DWM层的数据计算复用工作,可以有效的避免重复计算,提升数据处理效率,降低系统成本。

DWM层所解决的问题

DWM层的主要目的是解决DWD层数据存在的以下问题:

  • 数据质量问题:DWD层的数据可能存在脏数据、缺失数据和重复数据等问题,这些问题会影响DWS层的数据质量。
  • 数据集成问题:DWD层的数据可能来自不同的数据源,这些数据源的数据格式和结构可能不一致,需要进行数据集成。
  • 数据计算复用问题:DWD层的数据可能被多个DWS层主题复用,如果每个DWS层主题都对DWD层的数据进行相同的计算,将会导致大量的重复计算。

DWM层的数据模型

DWM层的数据模型主要包括以下几种:

  • 宽表模型:宽表模型将多个相关表的列合并到一个表中,便于数据查询和分析。
  • 星型模型:星型模型将事实表与维度表关联起来,便于数据查询和分析。
  • 雪花模型:雪花模型是星型模型的扩展,它将维度表进一步分解成子维度表,便于数据查询和分析。

DWM层的数据集成

DWM层的数据集成主要包括以下几个步骤:

  • 数据采集:将数据从不同的数据源采集到DWM层。
  • 数据清洗:对采集到的数据进行清洗,去除脏数据、缺失数据和重复数据。
  • 数据转换:将清洗后的数据转换为适合DWM层数据模型的格式。
  • 数据关联:将来自不同数据源的数据进行关联,形成统一的数据视图。

DWM层的数据质量

DWM层的数据质量主要包括以下几个方面:

  • 数据准确性:DWM层的数据必须准确无误。
  • 数据完整性:DWM层的数据必须完整,不能有缺失数据。
  • 数据一致性:DWM层的数据必须一致,不能有矛盾的数据。
  • 数据时效性:DWM层的数据必须及时更新,不能有延迟。

DWM层的数据治理

DWM层的数据治理主要包括以下几个方面:

  • 数据安全:保护DWM层的数据不被非法访问和使用。
  • 数据隐私:保护DWM层的数据不被非法泄露。
  • 数据备份:对DWM层的数据进行备份,以防止数据丢失。
  • 数据恢复:当DWM层的数据丢失时,能够快速恢复数据。

DWM层的发展趋势

DWM层的发展趋势主要包括以下几个方面:

  • 实时化:DWM层将更加实时化,能够满足实时数据分析的需求。
  • 智能化:DWM层将更加智能化,能够自动发现和修复数据质量问题。
  • 自动化:DWM层将更加自动化,能够自动完成数据采集、清洗、转换、关联和质量检查等工作。

总结

DWM层是实时数据仓库中的一个重要组成部分,它负责将DWD层的数据进行清洗、转换、聚合和关联,为DWS层提供高质量的数据服务。DWM层的数据计算复用工作,可以有效的避免重复计算,提升数据处理效率,降低系统成本。