中国数学外国人做视频网站,房价必涨的十大城市,专业设计科技展厅公司,wordpress模板宠物前情提要
根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档#xff0c;当前数据质量评价指标框架中包含6评价指标#xff0c;在实际的数据治理过程中#xff0c;存在一个关联性指标。7个指标中存在4个定性指标#xff0c;3个定量指标#xff1b; 定性指标当前数据质量评价指标框架中包含6评价指标在实际的数据治理过程中存在一个关联性指标。7个指标中存在4个定性指标3个定量指标 定性指标规范性、准确性、唯一性、可访问性 定量指标完整性、时效性、关联性 规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度 完整性--按照数据规则要求,数据元素被赋予数值的程度 准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度 一致性--数据与其他特定上下文中使用的数据无矛盾的程度 时效性--数据在时间变化中的正确程度 可访问性--数据能被访问的程度 关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度 时效性怎么进行数据监测和指标量化
时效性定义
官方定义数据在时间变化中的正确程度
时效性的定义可以从外部对比的时效性和内部对比的时效性两个方向来梳理
外部对比的时效性外部对比的时效性是指从外部数据源获取的数据数据的更新及时性
内部对比的时效性内部对比的时效性是指数据在内部数仓流转、自主研发的数据资源的数据更新是否及时
作用的环节
数据更新及时与否是针对数据资产或数据场景而言的因此监测环节可以是数据资产层或者数据服务层
数据质量管理依据
外部对比的时效性依据「数据归集标准」中的数据探查维度标准在探查过程中需要探查数据源的数据更新频率基于数据源的更新频率制定数据时效性目标
内部对比的时效性依据「数据处理标准」中的数据规则执行频率在数据处理标准中每个数据规则会制定相关的执行频率基于执行频率进行对比
数据监测方法
外部对比的时效性可以以数据源为监测维度其核心监测维度是数据归集任务成功与否与外部对比的完整性一致这里不再赘述感兴趣可以看《数据质量管理-完整性》且为了避免重复计算时效性指标中可以不纳入数据归集任务指标的计算、数据业务时间与数据更新时间的时间差两个维度
数据业务时间与数据更新时间的时间差外部对比的时效性一般是基于数据源数据更新到****-**-**而数仓中未及时更新导致的数据时效性指标不及格的情况所以需要对比数据归集任务的执行时间和数据业务更新时间的对比基于最近10期确定平均值制定每个规则的更新周期上限制定数据时效性监测策略存在数据融合的情况下需要依据分类决策
内部对比的时效性依据「数据处理标准」中的数据规则执行频率监测任务执行成功与否
量化标准
外部对比的完整性数据业务时间与数据更新时间的时间差可以按以下步骤搭建量化标准
1.表1:制定每张表需要监测的业务时间字段每个规则的更新周期上限制定数据时效性监测策略如表1所示
2.表2:存储每张表的数据监测维度中最新10期平均时间差从第三表中获得并且基于表1计算出每个规则最新的时间差上限最新10期平均时间差数据更新允许推迟最晚周期
3.表3:监测每张表的每个规则的最新业务时间和数据库最新更新时间前提是数据库中有update的时间戳并且计算出二者时间差然后基于时间差和表2的时间差-上限做比对当表3的时间差小于等于表2的时间差-上限则赋值为正常更新
4.表4:基于最新的监测时间点中每张表的每个规则正常更新规则数与规则总数的占比计算外部时效性得分例如*******A的4个规则在最新一期有3个规则更新成功了那么本期的外部时效性得分为75分
内部对比的完整性内部对比的完整行主要是通过数据任务执行情况调取任务执行状态更新数和新增数以及数据库最新更新时间佐证任务执行状态最后基于每张表的每个任务执行状态计算平均分如表2所示
最终计算表单的时效性总分内部时效性与外部时效性平均值
下一章可访问性怎么进行数据监测和指标量化