当前位置: 首页 > news >正文 wordpress 账号插件知名seo电话 news 2025/10/22 7:07:06 wordpress 账号插件,知名seo电话,wordpress创建中英文,特效网站模板首先#xff0c;我们从数据仓库说起。 数据仓库的概念可以追溯到20世纪80年代#xff0c;当时IBM的研究人员提出了商业数据仓库的概念。数据仓库概念的提出#xff0c;是为了解决和数据流相关的各种问题#xff0c;特别是多重数据复制带来的高成本问题。 数据仓库之父Bill … 首先我们从数据仓库说起。 数据仓库的概念可以追溯到20世纪80年代当时IBM的研究人员提出了商业数据仓库的概念。数据仓库概念的提出是为了解决和数据流相关的各种问题特别是多重数据复制带来的高成本问题。 数据仓库之父Bill Inmon在1991年出版的Building the Datla Warehouse一书中首次提出了数据仓库的概念。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合用于支持管理者的决策过程。这个定义一直延续至今Bill Inmon也被称为数据仓库之父。 大约在2000年前后数据仓库开始进入中国最开始主要集中在银行业和电信业。银行业建设数据仓库的动力来自于监管要求和1104监管报送系统电信业的动力主要是推动省市级子公司汇总数据到总公司构建统一的财务分析报表。两个行业的应用为数据仓库概念在中国的普及奠定了基础。 在2010年以后随着大数据技术的发展扩展到其它行业。互联网、零售、制造、医疗行业等各行各业都在推广数据仓库。 然后是数据仓库技术的发展。 在2010年前后数据仓库系统主要由数据库、ETL平台、BI工具三个商业套件组成。常见的数据库主要是Oracle、DB2、Teradata对应的ETL平台分别是IBM DataStage、Informatica PowerCenter、Microsoft SQL Server Integration Services (SSIS)主流的商业BI平台主要是BIEE、Cognos、BO。对于以上这些名词可能今天的听众都很陌生但是在2010年前后这些就是数据仓库的代名词。 与此同时随着移动互联网的兴起以BAT为代表的互联网企业高喊着“去IOE”去ioe是指在阿里巴巴的IT架构中去掉IBM的小型机、Oracle数据库、EMC存储设备代之以自己在开源软件基础上开发的系统。早在20世纪90年代中国国内就逐渐形成了Oracle垄断电信行业IBM垄断金融行业的格局。口号推动数据仓库从商业时代走向了开源时代也从单体架构走向分布式架构。这里面最具代表性的就是阿里巴巴和腾讯公司分别2009年引入Hadoop集群并且持续迭代升级并一直使用至今。互联网公司引入Hadoop体系的原因也很简单因为传统的商业数据库已经无法满足互联网企业的数据存储计算需求了。传统的商业数据库扩展能力有限硬件价格高昂并发执行能力不足Hadoop则刚好可以解决这些痛点加上HiveQL可以满足大部分数据开发的需求因此Hive数仓逐步替代了商业数据库。但是前期Hadoop、Hive、sqoop等开源软件并不成熟需要投入大量的技术研发来完善这些软件修复其中的bug优化某些模块的性能或者功能这个过程也比较缓慢所以前期大家对Hadoop和Hive的感受都是很难用、不稳定在2016年底互联网公司开始引入Kafka。 后面的故事大家基本上都知道了2016年前后随着Hive2.3和Hive3.0版本的发布Hadoop体系逐渐走向成熟稳定Hortonworks和Cloudera公司分别为Hadoop生态贡献了Tez引擎、Ambari管理平台和Impala引擎与此同时内存计算引擎Spark强势崛起为Hive提高了新的强大动力Hive母公司Facebook又进一步开源了MPP框架的查询引擎Presto大幅提升了Hive数仓的查询能力。 站在当前时间点我们谈论的Hive数仓一般默认包括HDFS存储系统、Yarn资源管理平台、Hive元数据管理、Spark计算引擎、Presto查询引擎这些构成了离线数仓的技术栈。 这里简单介绍一下各个技术栈的功能和作用 1.Apache HadoopApache Hadoop是一个开源的分布式计算框架提供了可扩展的存储和处理大规模数据的能力。它的核心组件包括Hadoop Distributed File System (HDFS)、MapReduce和Yarn资源管理组件主要用于离线数仓数据存储和资源调度。 2. Apache HiveApache Hive是基于Hadoop的数据仓库基础架构提供了类似SQL的查询语言HiveQL使用户可以通过SQL风格的语法进行数据查询和分析。它支持将结构化数据映射到Hadoop集群上的HDFS并利用MapReduce、Spark、Tez等计算引擎进行查询和数据加工。 3.Sqoop一个短命而重要的Hadoop组件用于从关系型数据库抽取数据到Hive数仓中或者从Hive数仓中导出数据到关系型数据库。sqoop是一个非常重要的组件但是不知道出于什么原因很早就停止了更新目前国内基本上都是用阿里巴巴开源的DataX替代其功能。 4. Apache SparkApache Spark是一个快速、通用的大数据处理引擎可用于构建离线数据仓库和实时数据分析系统。Spark提供了高性能的数据处理和分析能力并支持多种编程语言如Scala、Java和Python。 5. Apache KylinApache Kylin是一个开源的分布式分析引擎专门用于构建OLAP联机分析处理数据仓库。它支持在Hadoop上构建多维数据模型提供快速的查询性能和高度可扩展性。这是一款由国人主导和开源的大数据项目也是一款专注于OLAP查询的Apache顶级开源项目。 6. PrestoPresto是一个分布式SQL查询引擎可用于构建大规模数据仓库和数据查询引擎。它支持在多个数据源上执行高性能的查询包括Hive、MySQL、PostgreSQL等。 说完数据仓库就要说说OLAP查询了。在传统的数据仓库架构里ETL是在数据仓库之外OLAP在数据仓库之内的。在Hadoop体系引入数据仓库领域以后大大提升了数据ETL处理的能力、集群的扩展能力、数据存储的稳定性但是牺牲了数据的查询能力。所以就诞生了OLAP查询这个专业领域。 在离线数仓技术中除了前面介绍的Kylin、Presto、Impala、Druid都是为了解决OLAP查询而设计的但是这些基于HDFS设计的OLAP引擎都只是加速了查询速度还没能达到令人满意或者令人惊艳的速度。于是ClickHouse和Doris横空出世一举成为了OLAP领域的王者。 ClickHouse是俄罗斯的 Yandex 于2016年开源的用于在线分析查询的数据管理系统是一款基于MPP架构的列式存储数据库能够使用 SQL 查询语句实时生成数据分析结果。ClickHouse的全称是Click StreamData WareHouse。ClickHouse 也是第一款实现向量化查询引擎的开源数据库也是一款专注于OLAP查询的数据库。ClickHouse直接将OLAP查询的耗时压缩到了压秒级。 Apache Doris也是一个MPP架构的、专门用于OLAP查询的数据库产品。Apache Doris不仅可以满足多种数据分析需求如固定历史报表实时数据分析交互式数据分析探索式数据分析而且集群扩展能力非常突出可以支持10PB以上的超大数据集。另外Apache Doris对实时数据的支持也非常强大因此是一款综合能力非常强的数据库。由于Apache Doris是本次分享的重点所以这里只是简单介绍一下后面再展开。 这里插入一个知识点也是我在整理PPT的时候看到的一个总结。ClickHouse为什么快这里总结了几个点其中最主要的是C语言可以利用硬件优势底层数据选择列存储支持向量化查询引擎利用单节点的多核并行处理能力数据写入时建立一级、二级和稀疏索引。这些特点为新兴的OLAP查询数据库研发指明了方向这也是Doris的基本特点。 再说说第三个概念MPP架构。MPP是大规模并行处理框架的简称。MPP是Shared Nothing架构是将任务并行地分散到多个服务器和节点上在每个节点上的计算完成后将各部分的结果汇总在一起得到最终的结果。 前文说到的Teradata是业界最早的知名MPP架构的数据库之后是Greenplum以及和Greenplum架构类似GBase、GaussDB等都是MPP架构。Hadoop体系的Presto、HAWQ、Impala都宣称是MPP架构还有前面说到的Clickhouse和Doris两个新生物种。由于MPP家族越来越庞大加上Hadoop生态的跨界“打劫”所以现在很难定义什么是MPP架构。MPP架构和Hadoop架构在一定层次上走向融合目前最大的区别就在于计算资源的分配上。Hadoop架构还遵从Yarn分配资源而MPP架构都是独立使用本地内存和CPU。再就是过程备份和失败重试机制hadoop都会保留中间计算过程计算失败的部分节点有自动重试机制而MPP架构一般是一次性过程如果执行失败了就会告诉用户执行失败以此换取更好的查询性能。 最后再来说说实时数仓。传统的数据仓库都是利用夜间的业务低峰期来完成数据的ETL加工处理并且为白天的日常分析提供数据支撑所以在这个应用前提下数据仓库默认都是按天计算和加工数据的俗称T1数仓。但是随着业务的发展和技术的成熟我们不再满足于今天看昨天的数据而是想要今天就看到今天的数据于是就有了实时数仓的概念。实时数仓是指数据的实时性更高、延迟性低的数据仓库一般是统计当天发生的业务数据。实时数仓一般包括按小时执行的小时级、分钟级的延时的准实时和秒级延时纯实时数仓。 从前面的介绍我们可以看出早期的Hive数仓技术并不完善连实时OLAP查询都很难做到所以要做到实时数仓就更加难上加难。所以Kafka诞生这么多年实时数仓还要等到Flink火爆才流行起来。纯实时数据仓库是指能够以近乎实时的方式处理和分析数据的数据仓库。它的目标是将数据的捕获、处理和分析的速度提高到接近实时的水平以支持实时决策和洞察。 纯实时数据仓库颠覆了离线数仓的架构包括数据采集、数据加工、数据查询和分析都需要采用一套新的技术栈。 在数据采集方面要做到较低延迟的采集数据常用的方法是读取数据库变更日志也叫CDC或者直接接入在线的Kafka数据流。 在数据加工方面实时数据一般采用Apache Flink或者Spark Streaming来完成数据加工中间过程数据一般保存在Kafka。 在实时数据查询方面一般只支持将数据汇总写入MySQL等关系型数据库或者Redis缓存以便于快速获取结果。为了支持更快的查询我们也可以将数据写入Clickhouse和Doris进行查询。 这种加工虽然可以做到数据的秒级延迟但是牺牲了数据的准确性和数据分析维度高度聚合的数据虽然可以满足一些场景的使用但是无法进一步分析和深挖数据价值。所以大多数情况下我们会在实时架构和离线架构之间做一个折中处理就前半部分实时后半部分离线数据接入实时数据加工采用离线微批处理。如果交易系统无法支持CDC变更日志我们甚至可以基于数据的创建时间和修改时间做微批的增量数据抽取。微批处理的好处在于数据准确度比实时高技术比较成熟开发运维成本低。具体的实现方法我们将在第三部分展开。 实时数仓的应用场景也是在逐步丰富的我在工作中遇到的主要有 ①实时业务监控和预警避免线上业务中断未能及时发现造成的损失。 ②实时大屏主要用于618或者双十一大促期间监控业绩目标达成情况。 ③实时机器人播报通过实时数据加工及时向相关同事通报当日业绩进展情况和排名。 ④移动端实时数据展现方便领导、管理人员实时查看业绩完成情况。 ⑤实时自助分析主要是给自助分析补充当日数据。 ⑥实时看板。例如按照五分钟的粒度查看成交指标并和同期进行对比便于及时发现业务故障比实时监控更直观。 ⑦实时数据接口。有一些数据对外的场景需要实时提供最新的数据便于跨系统对接不过这种场景大多数在交易系统完成。 ⑧实时推荐例如商品实时销售排行榜等。 实时数仓的实现也有很多难点我这里总结主要是三个点。 第一多表关联也叫多流jion当其中一方数据延迟时如果另外一边的流数据不在数据窗口范围中将无法关联。例如销售订单父表和销售明细子表如果业务系统出现明细表变更超出窗口范围的数据双流jion将会丢失数据导致变更记录丢失。 第二维度数据变更。当维度数据发生变化时历史数据和新写入的数据将存在不一致。如果是离线数仓我们一般用当日凌晨确定时间点的维度状态作为统一维度如果是纯实时数仓维度变化前后的数据将出现不一致而历史数据按照新维度清洗将成为一大难题。 第三个点是数据失效。数据失效包括数据物理删除和状态变为无效。数据物理删除是指交易系统直接删除了对应的记录这个在增量数据处理和实时数据抽取中都是难点幸运的是CDC日志可以捕获到删除的记录状态变为无效是指原来有效的数据变为无效数据例如订单支付后关单。对于数据失效我们一般的处理方法是生成一条指标为负数的对冲记录将汇总结果中的指标扣减掉。但是在计算成交人数等指标则无法做到剔除。 以上三种情况在传统方案的实时数仓领域是无解的但是使用FineDataLink我们是可以很轻易的解决这些痛点。 帆软软件推出的FineDataLink提供了一套完整而灵活的解决方案可以帮助用户快速构建可靠的高时效/近实时数据仓库系统。在构建高时效/近实时数据仓库时帆软FDL有以下优势 1. 操作界面简洁清晰无代码配置字段自动映射无需专业的编程能力即可完成任务配置。 2. 提供统一的错误队列管理、预警机制、日志管理支持脏数据阈值设置和通知功能可通过短信、邮件、平台消息等进行消息提醒保证企业敏感数据的安全性。 3. 打破数据壁垒实现低成本业务系统的数据实时同步从多个业务数据库实时捕获源数据库的变化并毫秒内更新到目的数据库。 综上所述数仓建设是企业数据管理和决策支持的关键环节在实践中企业需要根据自身业务需求和数据规模选择合适的数仓建设方案和技术方案以提高企业数据资产的价值和利用效率。 FineDataLink——小到数据库对接、API对接、行列转换、参数设置大到任务调度、运维监控、实时数据同步、数据服务API分享另外它可以满足数据实时同步的场景应有尽有功能很强大。如果您需要进行实时数仓建设帆软FDL会是您的最优解。 了解更多数据仓库与数据集成关干货内容请关注FineDataLink官网 免费试用、获取更多信息点击了解更多体验FDL功能 往期推荐: 【大数据】什么是数据集市如何创建数据集市-CSDN博客 关于实时ODS层数仓搭建的三个问题_数仓直接依赖ods层有什么风险-CSDN博客 数据管道为什么选择Kafka作为消息队列-CSDN博客 文章转载自: http://www.morning.wsjnr.cn.gov.cn.wsjnr.cn http://www.morning.qblcm.cn.gov.cn.qblcm.cn http://www.morning.nkjnr.cn.gov.cn.nkjnr.cn http://www.morning.xfhms.cn.gov.cn.xfhms.cn http://www.morning.tpdg.cn.gov.cn.tpdg.cn http://www.morning.ssglh.cn.gov.cn.ssglh.cn http://www.morning.bnmfq.cn.gov.cn.bnmfq.cn http://www.morning.pjwrl.cn.gov.cn.pjwrl.cn http://www.morning.kmqms.cn.gov.cn.kmqms.cn http://www.morning.divocn.com.gov.cn.divocn.com http://www.morning.fstesen.com.gov.cn.fstesen.com http://www.morning.liyixun.com.gov.cn.liyixun.com http://www.morning.hrnrx.cn.gov.cn.hrnrx.cn http://www.morning.xfwnk.cn.gov.cn.xfwnk.cn http://www.morning.gcrlb.cn.gov.cn.gcrlb.cn http://www.morning.dhckp.cn.gov.cn.dhckp.cn http://www.morning.hjbrd.cn.gov.cn.hjbrd.cn http://www.morning.rqfkh.cn.gov.cn.rqfkh.cn http://www.morning.rjtmg.cn.gov.cn.rjtmg.cn http://www.morning.zlcsz.cn.gov.cn.zlcsz.cn http://www.morning.trjp.cn.gov.cn.trjp.cn http://www.morning.kqpq.cn.gov.cn.kqpq.cn http://www.morning.mhnrx.cn.gov.cn.mhnrx.cn http://www.morning.sfqtf.cn.gov.cn.sfqtf.cn http://www.morning.mflhr.cn.gov.cn.mflhr.cn http://www.morning.qtryb.cn.gov.cn.qtryb.cn http://www.morning.jglqn.cn.gov.cn.jglqn.cn http://www.morning.wfpmt.cn.gov.cn.wfpmt.cn http://www.morning.mxbks.cn.gov.cn.mxbks.cn http://www.morning.dnbhd.cn.gov.cn.dnbhd.cn http://www.morning.nmkfy.cn.gov.cn.nmkfy.cn http://www.morning.xmjzn.cn.gov.cn.xmjzn.cn http://www.morning.lsfzq.cn.gov.cn.lsfzq.cn http://www.morning.hjsrl.cn.gov.cn.hjsrl.cn http://www.morning.qhydkj.com.gov.cn.qhydkj.com http://www.morning.wkqrp.cn.gov.cn.wkqrp.cn http://www.morning.ljzgf.cn.gov.cn.ljzgf.cn http://www.morning.qzpw.cn.gov.cn.qzpw.cn http://www.morning.qhnmj.cn.gov.cn.qhnmj.cn http://www.morning.rqjxc.cn.gov.cn.rqjxc.cn http://www.morning.myfwb.cn.gov.cn.myfwb.cn http://www.morning.bnbzd.cn.gov.cn.bnbzd.cn http://www.morning.mmqhq.cn.gov.cn.mmqhq.cn http://www.morning.xxlz.cn.gov.cn.xxlz.cn http://www.morning.yxwcj.cn.gov.cn.yxwcj.cn http://www.morning.ygztf.cn.gov.cn.ygztf.cn http://www.morning.xstfp.cn.gov.cn.xstfp.cn http://www.morning.lsnhs.cn.gov.cn.lsnhs.cn http://www.morning.lfcfn.cn.gov.cn.lfcfn.cn http://www.morning.tkqzr.cn.gov.cn.tkqzr.cn http://www.morning.wnywk.cn.gov.cn.wnywk.cn http://www.morning.nxdqz.cn.gov.cn.nxdqz.cn http://www.morning.ksgjy.cn.gov.cn.ksgjy.cn http://www.morning.qzqfq.cn.gov.cn.qzqfq.cn http://www.morning.xkwrb.cn.gov.cn.xkwrb.cn http://www.morning.qcwck.cn.gov.cn.qcwck.cn http://www.morning.mzhhr.cn.gov.cn.mzhhr.cn http://www.morning.bzbq.cn.gov.cn.bzbq.cn http://www.morning.qjfkz.cn.gov.cn.qjfkz.cn http://www.morning.mqghs.cn.gov.cn.mqghs.cn http://www.morning.ttnfc.cn.gov.cn.ttnfc.cn http://www.morning.ygqjn.cn.gov.cn.ygqjn.cn http://www.morning.wlnr.cn.gov.cn.wlnr.cn http://www.morning.slqgl.cn.gov.cn.slqgl.cn http://www.morning.mspqw.cn.gov.cn.mspqw.cn http://www.morning.tlrxt.cn.gov.cn.tlrxt.cn http://www.morning.qpxrr.cn.gov.cn.qpxrr.cn http://www.morning.iznek.com.gov.cn.iznek.com http://www.morning.xprq.cn.gov.cn.xprq.cn http://www.morning.qgjgsds.com.cn.gov.cn.qgjgsds.com.cn http://www.morning.qwmpn.cn.gov.cn.qwmpn.cn http://www.morning.bwygy.cn.gov.cn.bwygy.cn http://www.morning.qrwdg.cn.gov.cn.qrwdg.cn http://www.morning.yppln.cn.gov.cn.yppln.cn http://www.morning.tsyny.cn.gov.cn.tsyny.cn http://www.morning.pcgmw.cn.gov.cn.pcgmw.cn http://www.morning.qnzld.cn.gov.cn.qnzld.cn http://www.morning.hqllx.cn.gov.cn.hqllx.cn http://www.morning.yxzfl.cn.gov.cn.yxzfl.cn http://www.morning.mzkn.cn.gov.cn.mzkn.cn 查看全文 http://www.tj-hxxt.cn/news/239033.html 相关文章: 做企业网站设计手机站网站广告销售怎们做 网站推送怎么做的天河区做网站的公司 郑州网站建浙江网站建设价格低 网站建设开题报告pptwordpress中文优化版 做网站被骗通过网站如何做海外贸易 网站建设培训中心苏州精品网站建设 网站开发合同 黑客攻击条款用node.js可以做网站吗 网站域名的根目录在哪里深圳建设工程交易服务 微信公众号授权给网站php5 mysql网站开发实例精讲 网站关键词没有指数企业网站模板 下载 江苏省建设工程考试网站定制的网站源码 棠下手机网站建设报价wordpress 用户积分系统 网站做外链好嘛企业网站开发 文献综述 网站备案 服务内容揭阳网站建设方案托管 山东建设厅官方网站李兴军电商最好卖的十大产品 安康网站设计传奇世界页游 东莞网站建设方案外包襄樊seo排名 iis做的网站手机怎么访问手机怎么创建链接网址 园区网站建设目的凡客建站手机版下载 做网站排名优化有用吗现在做一个app大概多少钱 水利网站建设管理汇报医院网站站内文章收录量多少 wordpress 下载模板站杭州市网站推广 网站设计技术大全无锡军自考网站建设 两学一做网站视频济南网站建设哪家便宜 惠州企业网站建设手机app软件开发价格 河北省建设信息中心网站唯美wordpress简约主题 外贸开发网站公司建设公司官网介绍 湖南网站推广做新的网站 网站维护服务器网站建设总体设计 网站的友情链接是什么意思深圳网络推广公司怎么样