网站建设兼职工资,卖水果网站建设的策划书,深圳市凡客创品科技有限公司,麻涌网站建设公司数仓建模简介
一句话总结
数仓建模中的“建模”是一个将数据有序组织和存储起来的过程#xff0c;旨在提高数据的使用效率和降低使用成本。
详细描述
在数仓建模中#xff0c;“建模”指的是构建数据模型#xff0c;也就是数据的组织和存储方法。数据模型强调从业务、数…数仓建模简介
一句话总结
数仓建模中的“建模”是一个将数据有序组织和存储起来的过程旨在提高数据的使用效率和降低使用成本。
详细描述
在数仓建模中“建模”指的是构建数据模型也就是数据的组织和存储方法。数据模型强调从业务、数据存取和使用角度合理存储数据其目标是让数据有序地组织和存储起来从而实现高性能、低成本、高效率、高质量的数据使用。 数据仓库建模的主要意义在于通过合理的数据组织和存储方法能够快速查询所需要的数据减少数据的I/O吞吐提高使用数据的效率。同时它也能极大地减少不必要的数据冗余实现计算结果复用极大地降低存储和计算成本。 在数仓建模中常见的模型包括维度模型等。维度模型通过事实和维度两个概念对复杂的业务进行呈现。其中事实通常对应业务过程而维度则对应业务过程发生时所处的环境。这种模型相对清晰、简洁能够帮助人们更好地理解业务数据。 总之数仓建模中的“建模”是一个将数据有序组织和存储起来的过程旨在提高数据的使用效率和降低使用成本。
数仓建模流程
1. 业务调研
建模之前先梳理清楚数据仓库涵盖哪些业务线每个业务线包含哪些业务模块。我们可以参考阿里电商的这个图表进行梳理 最终我们根据自己的业务线填写下面表格
功能模板/业务线业务1业务2业务3模块1模块2模块n 着重说明建立一个好用的数仓业务一定要非常熟悉。可能我们只有一个业务线也可以是一个系统这个业务线中包含哪些模块开发系统的人或者使用系统的业务人员是非常清楚的可以沟通后进行梳理。 2. 需求调研
根据业务人员沟通需求最终形成需求文档开发需求需要哪些维度和度量
3. 数据域划分 数据域 业务过程和维度的抽象。 根据业务流程、根据系统、根据部门等等需要注意的是数据域的目的就是为更好的组织数仓中的数据可以联想图书馆会把图书根据不同的专业放到不同的书架只要可以更好的找到数据就可以划分为数据域。 常见的一个划分思路比如是构建一个集团的数仓那么就可以根据部门划分如果是构建某个部门的数仓就可以根据业务系统、流程来划分。 如何划分 根据业务流程、根据系统、根据部门等等需要注意的是数据域的目的就是为更好的组织数仓中的数据可以联想图书馆会把图书根据不同的专业放到不同的书架只要可以更好的找到数据就可以划分为数据域。 评判标准 划分数据域时既能涵盖当前业务需求又能在新业务进入时无影响的进入已有数据域中或者扩展新的数据域。 参考阿里电商
4. 构建总线矩阵
做两件事
明确每个数据域下有哪些业务过程业务过程与哪些维度相关并定义每个数据域下的业务过程和维度 总线矩阵模板 参考阿里电商
5.规范定义
规范定义 主要是定义指标体系原子指标、修饰词、时间周期和派生指标。指标体系 指标体系包含原子指标、派生指标、修饰类型、修饰词、时间周期。原子指标/度量 原子指标和度量含义相同基于某一业务事件行为下的度量是业务中不可再拆分的指标具有明确业务含义的名词如支付金额。派生指标 派生指标一个原子指标多个修饰词可选时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标支付金额最近1天海外买家支付金额则为派生指标最近一天为时间周期海外为修饰词买家作为维度而不是修饰词。修饰类型 是对修饰词的一种抽象划分。修饰类型从属于某个业务领域如日志域的访问终端类型涵盖无线端、PC端等修饰词
6. 模型设计
主要包括维度即属性的规范定义维表、明细事实表和汇总事实表的模型设计。
度量称为事实我更喜欢把连续型的数值称为事实环境描述称为维度我更喜欢把离散型的字段称为维度。
维表和实时表模型设计内容较多我们会放到后面讲解。
总结
根据我的经验很多公司做数仓建模流程都和上面的类似但又都不太相同有的极其缩减尤其是较小项目。因此我们在做的时候可以参考上面流程但不要可以生搬硬套有的时候甚至一个简单的事情由于自己刻意要生搬硬套相关概念导致迟迟不能入手开发。 一个简单的数仓项目甚至可以简化到只要明确划分ods、dwd、dim、dws层级就可以使用。但是一个好用的数仓显然就有更多的规范约束了。