网站推广计划书,旅游网站效果图,恺英网络公司现状,备案网站公共查询系统本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Storage Account】系列。 接上文 【Azure 架构师学习笔记】-Azure Storage Account#xff08;5#xff09;- Data Lake layers 前言
上一文介绍了存储帐户的概述#xff0c;还有container的一些配置#xff0c;在… 本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Storage Account】系列。 接上文 【Azure 架构师学习笔记】-Azure Storage Account5- Data Lake layers 前言
上一文介绍了存储帐户的概述还有container的一些配置在container下面存放的就是文件夹和文件也就是数据。之所以单独一文描述是因为当一个项目考虑使用云存储时除了一些必要的外部设置这种“硬”设计之外还需要考虑文件结构这种“软”设计。 本文讲述的就是比较通用的“软”设计部分。
在container下面按照业界的一些最佳实践会定义一些列的Zone 目录当然还要配置安全控制将在下一文介绍。
Zone
分开zone的其中一个原因来自于上文讲述的一些策略如果没有把zone区分出来那么某些允许定期删除或者不允许删除的策略就会导致数据的管理混乱。同时通过把访问控制细化可以更好地保护一个中央存储帐户上的数据安全和可信度。 还有其他的一些好处比如缺乏治理的数据湖可能会变成数据“沼泽” 或者变成数据“垃圾场”用户会淹没在混乱的数据中。
常见的Zone有以下几个
Raw数据的原始格式存储。可以作为下游系统唯一数据源。Staging经过初步处理的数据已经可共数据科学家等进行使用。Curated符合数据湖标准的数据集市。经过清洗转换重组后的数据可供数据交付。符合安全治理要求。
还有一些更加细分的可选的zone
Transient/Temp对Raw data进行进一步的区分把“新”数据从中隔离出来。也可以用于数据校验提供低延时的数据服务。Master Data用于引用的数据。User Drop Zone手动生成的数据。Archive Zone数据归档。
Zone的设计并不仅限于云存储而且这是一种设计思维而不是实现方式具体需求绝体实现。
文件夹
在各个zone下面存放的首先是文件夹。文件夹的问题在于结构的设计你可以按时间创建父文件夹里面是地区系统等。也可以按照地区建父文件夹哪一种更合适要根据需求来定如果为了数据分析那么建议更多的是 以zone为第一层以数据源为第二层然后再按年月日顺序创建文件夹。 这样的好处在于权限控制较为简单ADF Databricks等ETL 过程可以更加动态参数化。
小结
整个存储帐户最终看起来将会是类似如下图所示
下一文将介绍一下安全方面的内容。