网站制作 潍坊,各大网站的404,视频网站自己做服务器,百度知道怎么赚钱什么是数据仓库#xff1f; 数据仓库是一个用于存储大量数据并支持数据分析与报告的系统。它通常用于集成来自不同来源的数据#xff0c;提供一个统一的视图#xff0c;以便进行更深入的分析和决策。 数据仓库的主要优势#xff1f; 决策支持#xff1a;为企业决策提供可靠… 什么是数据仓库 数据仓库是一个用于存储大量数据并支持数据分析与报告的系统。它通常用于集成来自不同来源的数据提供一个统一的视图以便进行更深入的分析和决策。 数据仓库的主要优势 决策支持为企业决策提供可靠数据支持数据整合整合多个数据源提供一致的视图高性能支持复杂查询和大数据量的分析 数据仓库的结构 数仓通常包含三个主要层级
采集层Staging Layer用于原始数据的收集与存储不做任何改动集成层Integration Layer将采集层数据整合、清洗和转换建立一个统一、一致的数据视图应用层Access Layer用于向用户展示数据的最终层提供直观易懂的数据分析和报告 数据仓库的建模 维度Dimensions
维度是用来描述业务过程的可度量特征通常为数据建模提供上下文。它们是用来对事实进行分类和筛选的属性。常见的维度包括时间、地理位置、产品、客户等。维度可以有层次结构如时间维度可以包括年、季度、月份等层级。
事实Facts
事实是在数据仓库中可以量化的事物或事件是可度量的数字指标。它们通常是业务过程中的一些关键性能指标如销售额、利润、数量等。事实与维度结合使用可以提供对业务过程的完整描述和分析。
指标Measures
指标是用来度量业务绩效的计算标准。它们可以基于事实和维度数据计算得出用于衡量业务的表现和趋势。常见的指标包括平均销售额、利润率、增长率等。指标通常被用于数据分析和报告中以帮助决策者更好地理解业务数据和趋势。
统计表 (Stats)
统计表由维度和指标构成维度一般包含时间维度、地区维度可以是二维、三维甚至多维维度越多则数据的统计粒度越细。统计表可以给到应用层去使用也可以使用 BI 工具metabase去可视化展示。
在数据仓库中维度、事实、指标、统计是构建数据模型和报告的关键组成部分它们的正确理解和应用有助于提高数据分析的精度和价值。
数据库 Doris
Doris 数据库是一种开源的、基于大规模并行处理Massively Parallel Processing, MPP架构的分布式列式存储在线分析处理Online Analytical Processing, OLAP数据库系统。它由百度公司开发并贡献给 Apache 软件基金会目前作为 Apache 顶级项目进行维护和进一步发展。
Doris 数据库具备多项优势使其非常适合作为数据仓库技术栈的一部分甚至作为独立的数据仓库解决方案。以下是 Doris 数据库的主要优势以及为何它适合作为数据仓库
高性能与实时性
MPP 架构Doris 利用 MPP 技术将查询任务并行化处理有效利用集群资源显著提升查询速度列式存储列式存储方式减少了 I/O 开销利于数据压缩尤其适合于聚合查询和过滤查询大大加快了数据扫描速度实时分析Doris 支持实时数据导入如通过 Stream Load 或 Flink 对接实现数据的近实时更新与查询满足业务对即时数据分析的需求
Tips假设你是一家电商公司的数据分析师需要实时监控销售数据以便快速做出决策。使用 Doris 数据库你可以将订单数据实时导入如通过 Kafka 消息队列Doris 会立即处理这些数据并更新相关表。当你执行如下 SQL 查询时
SELECThour(order_time), product_category, SUM(order_amount)
FROMorders
WHEREorder_date CURDATE()
GROUP BYhour(order_time), product_category;Doris 凭借其 MPP 架构和列式存储能在短时间内从大量订单数据中筛选出当日的交易记录按照小时和商品类别进行聚合计算提供实时销售趋势分析。由于 Doris 对实时数据的高效处理能力你几乎可以实时看到最新数据的变化迅速响应市场动态。
易用性与灵活性
简单易用的 SQL 接口Doris 遵循 SQL 标准用户可以直接使用 SQL 进行查询、数据加载和管理降低学习成本在线表结构变更允许在不影响业务的情况下动态调整表结构包括添加、删除列或修改表定义无需停机维护预聚合 Rollup支持创建预计算的聚合表Rollup 表提前计算并存储常见聚合结果提高查询效率
Tips随着业务发展你发现需要在订单表中新增一列记录用户的购物偏好。在传统数据库中这可能需要停机维护但在Doris 中你可以在线添加列
ALTER TABLE orders ADD COLUMN shopping_preference VARCHAR(100);这一操作不会影响正在进行的查询或数据导入确保业务连续性。此外若发现某些聚合查询频繁且耗时较长你可以创建预聚合 Rollup 表
CREATE ROLLUP TABLE orders_summary
ON orders (order_date, product_category)
AGGREGATE (SUM(order_amount));以后查询每日各产品类别的总销售额时可以直接查询 orders_summary 表查询速度将大幅提高。
高效数据管理与运维
自动负载均衡系统自动管理数据分片Tablet的分布与副本迁移确保数据均匀分布在各节点上实现高效资源利用高可用与容错通过多副本机制节点故障时能自动切换至备份副本确保数据不丢失且服务持续可用轻量级运维FrontendFE节点负责集群管理简化了部署与运维工作降低了总体运维成本
Tips你的 Doris 集群规模随着数据增长而扩大新加入的节点会自动参与到数据分片Tablet的存储和查询处理中系统自动进行负载均衡。当某个 BE 节点出现故障时Doris 会自动切换到其他副本节点确保查询不受影响。此外你还可以通过设置数据过期策略自动清理超过一定期限如保留最近一年数据的历史订单记录节省存储空间
ALTER TABLE orders SET (TTL1year);丰富的生态兼容性与集成
多种数据源接入支持从多种异构数据源如 MySQL、HDFS、Kafka 等直接加载数据方便数据集成BI 工具对接与主流商业智能BI工具无缝集成如 Tableau、Power BI 等便于构建数据分析报告与可视化仪表板大数据生态集成与 Hadoop、Spark、Flink 等大数据生态系统组件良好兼容便于在大数据处理管道中嵌入 Doris 作为 OLAP 层
Tips你的公司已有一套基于 Hadoop 的数据湖其中存储了历史订单数据。你希望在 BI 工具如 Tableau中直接分析这些数据而无需额外 ETL 过程。借助 Doris 对 HDFS 数据源的支持你可以创建外部表直接映射到 Hadoop 上的数据文件
CREATE EXTERNAL TABLE historical_orders
LIKE orders
LOCATION hdfs://your-hadoop-cluster/path/to/orders;然后在 Tableau 中连接到 Doris 数据库即可直接对 historical_orders 表进行深度分析构建可视化报表。
数据仓库功能完备
数据分区通过灵活的分区策略用户可以根据时间、地区或其他业务逻辑对数据进行组织优化查询性能与数据管理数据分桶支持数据分桶进一步细化数据分布提升特定查询条件下的查询效率数据生命周期管理可以设置数据过期策略自动清理过期数据符合数据仓库对数据保留期限的管理要求
综上所述Doris 数据库凭借其强大的实时分析性能、易用性、高效的数据管理、广泛的生态集成以及完备的数据仓库功能完全可以胜任作为数据仓库技术栈的角色。无论是作为数据仓库的核心引擎还是作为现有数据仓库体系中的一个关键组件Doris 都能够为用户提供快速、灵活且经济高效的分析能力。特别是在需要实时分析、快速响应业务变化以及简化运维场景下Doris 数据库的优势尤为突出。 Q A 什么是 MPP
MPPMassively Parallel Processing即大规模并行处理。MPP 是一种分布式计算架构用于数据库和数据仓库系统它将查询任务分解成多个子任务这些子任务在集群中的多个节点上并行执行。这样可以充分利用硬件资源大幅度提升处理海量数据的查询性能。
什么是列式存储
列式存储是一种数据存储方式与传统的行式存储相对。在列式存储中数据表的每一列被单独存储并且同一列的所有数据值紧密相邻。这意味着查询只需要读取涉及的列而不是整行数据这对于 OLAP在线分析处理场景非常有利尤其是当查询仅关注少量列或进行大量聚合计算时。列式存储还利于数据压缩因为同一列内数据类型相同更容易进行高效压缩从而减少存储空间需求和 I/O 开销。
为什么说传统数据库在新增列时需要停机维护借助 ORM 不是可以实现方便快捷地操作数据库吗
传统数据库尤其是关系型数据库在增加新列时通常需要对整个表进行结构修改。这个过程可能涉及到以下步骤
更新表的元数据定义以包含新列对于非空新列可能需要为表中已有行分配默认值或填充策略指定的值对于有索引、约束或其他依赖于表结构的对象可能需要相应地更新或重建
这些操作可能导致以下情况
锁表在执行 DDL数据定义语言操作时数据库系统可能会锁定整个表阻止其他事务对表的读写以确保数据一致性。这会导致在修改期间服务中断长时间阻塞对于大型表特别是含有大量数据的表新增列可能需要较长时间特别是如果涉及到数据填充或索引重建。这段时间内表无法被其他查询访问数据迁移在某些数据库管理系统中即使支持在线 DDL也可能需要后台进程进行数据迁移尤其是在有分区表或集群环境中这同样可能引起性能下降或短暂的服务不可用
ORMObject-Relational Mapping与新增列 ORM对象关系映射是一种编程技术用于将面向对象编程语言中的对象模型与关系型数据库中的表结构进行映射以简化应用程序与数据库之间的交互。虽然 ORM 可以帮助开发者以更高级、抽象的方式操作数据库但它并不能解决数据库本身在执行 DDL 操作如新增列时可能引发的停机问题。
尽管某些数据库系统提供了在线 DDL 功能允许在不停止服务的情况下添加新列但这通常需要数据库引擎具备特定的并发控制机制和数据迁移策略来尽量减少对业务的影响。然而即便是支持在线 DDL 的数据库对于大型表或高并发场景新增列仍可能引起性能波动或短暂的服务降级。因此是否需要停机维护主要取决于底层数据库管理系统的能力和具体操作的复杂性而非 ORM 工具的使用与否。
总之传统数据库在新增列时可能需要停机维护是因为该操作涉及到对表结构的实质性更改可能触发锁表、长时间阻塞或数据迁移等影响服务可用性的行为。ORM 作为一种中间件虽然简化了应用程序与数据库的交互但并不直接影响数据库底层的 DDL 操作特性。现代数据库系统如 Doris提供的在线表结构变更能力允许在不影响业务的情况下动态调整表结构这是其易用性和灵活性优势的具体体现。
基于上一问市面上的企业应用在面对需求要需新增列等场景时除了停机维护的方式还有其他策略吗如何降低对正常用户的影响
计划停机维护
对于确实需要停机才能完成新增列操作的数据库系统企业通常会选择在业务低峰时段或者事先通知用户的特定时间内进行维护以尽量减少对正常用户使用的影响。
维护窗口应尽可能短并确保有详细的回滚计划以防万一出现问题可以迅速恢复到维护前状态。
在线 DDL 支持
许多现代数据库系统如 Oracle、PostgreSQL、MySQL 的部分版本、SQL Server 等已经支持在线 DDL数据定义语言操作可以在不完全阻断业务的情况下添加新列。这些系统通常采用各种技术来确保数据的一致性和避免长时间锁表如使用元数据版本控制、两阶段提交、并行数据迁移等。
使用这类数据库的企业可以在不影响用户正常使用的情况下进行列添加不过即使如此对于大型表或高并发场景仍可能引起短暂的性能波动或服务降级因此也需要合理规划和监控。
应用层面兼容
在某些情况下如果业务允许一定的灵活性可以在应用代码中暂时模拟新列的行为直到安排合适的维护窗口。例如可以通过在现有列中增加额外的信息或者在应用逻辑中临时存储新列的值然后在后续的数据库维护窗口中正式添加新列并迁移数据。
数据仓库分离
对于分析型需求有时可以选择在数据仓库层面而非生产数据库中新增列。数据仓库通常与业务系统异步更新可以在不影响实时业务的前提下进行结构变更。业务系统产生的数据经过 ETL抽取、转换、加载过程进入数据仓库此时可以灵活地添加新列并重新计算历史数据。
数据库中间件或 Proxy
使用数据库中间件如 ShardingSphere、MyCat 等或 Proxy如 ProxySQL、MaxScale 等的企业可以在中间件层模拟新列的存在先在中间件上完成逻辑上的列添加然后在实际数据库维护窗口时同步更新数据库结构。这样应用程序在中间件看来已经包含了新列而实际数据库的变更则可以在对用户影响最小的时候进行。
云数据库服务
公有云服务商提供的数据库服务如 AWS RDS、Azure SQL Database、Google Cloud SQL 等往往提供更高级的管理功能和更高的可用性承诺。对于支持在线 DDL 的云数据库用户可以利用其特性在不停服的情况下完成列添加对于需要停服的变更云服务商可能提供透明的维护升级服务如蓝绿部署、读写分离切换等最大限度减少对用户的影响。
举例说明列式存储和行式存储的区别
假设我们有一个销售数据表 sales包含以下字段
order_id订单ID整数customer_id客户ID整数product_id产品ID整数order_date订单日期日期quantity购买数量整数price单价浮点数
在行式存储数据库中数据按行组织每行包含表中所有字段的值。假设我们有三笔销售记录 在硬盘上这些数据以连续的块形式存储每行数据紧凑地排列在一起。例如
1|1001|2001|2023-04-01|10|10.99
2|1002|2002|2023-04-02|5 |15.99
3|1003|2003|2023-04-03|3 |29.99在列式存储数据库中数据按列组织同一列的所有值存储在一起。同样的三笔销售记录在列式存储中的布局如下 在硬盘上这些数据按列分别存储在不同的物理位置每列数据紧凑排列。例如
订单ID列: 1|2|3
客户ID列: 1001|1002|1003
产品ID列: 2001|2002|2003
订单日期列: 2023-04-01|2023-04-02|2023-04-03
购买数量列: 10|5|3
单价列: 10.99|15.99|29.99假设我们需要执行两个查询
查询1统计所有产品的总销售额查询2找出所有在 2023 年 4 月购买了产品的客户 ID
在行式存储中
查询1需要遍历所有行累加 quantity 乘以 price。因为数据按行存储每次读取都需要获取所有字段的值即使只关心 quantity 和 price 字段查询2同样需要遍历所有行检查 order_date 是否在 2023 年 4 月并提取对应的 customer_id。同样即使只关心这两个字段也需要读取整行数据
在列式存储中
查询1只需读取 quantity 和 price 两列对这两列数据并行计算累加。由于列式存储中同类数据紧密存储压缩效率高且无需读取无关字段查询效率显著提高查询2仅需读取 order_date 和 customer_id 两列筛选出 order_date 在指定范围内的记录直接获取对应的 customer_id。同样由于只访问所需列查询效率得到提升
总结起来列式存储和行式存储的主要区别在于数据的物理存储方式和对查询性能的影响
行式存储适合于事务处理OLTP场景强调单行数据的完整性和更新效率查询时通常需要访问整行数据对涉及多行但仅需少数字段的分析查询效率较低列式存储适合于数据分析OLAP场景强调对大量数据的高效扫描和聚合运算查询时只需访问相关列对大数据量的特定列查询和聚合查询有显著性能优势。由于同类数据集中存储利于压缩和快速扫描。但对于涉及多列更新或全行读取的场景列式存储可能不如行式存储高效
基于上一问在行式存储中传统数据库如 MySQL 采用 B 树索引结构查询 1 和查询 2 可以不需要读取整行数据。既然行式存储可以借助索引实现高效读取那为什么还需要有列式存储呢
尽管行式存储数据库通过索引可以避免某些查询时的全表扫描显著提升查询性能但在特定业务场景下尤其是大规模数据分析和数据仓库应用中列式存储仍有其独特的价值和优势
高效数据压缩
列式存储将同一类型的值集中存储有利于实现高效的压缩算法。由于列内数据具有高度相似性压缩比通常远高于行式存储显著减少存储空间需求和 I/O 成本。这对于存储海量数据的数据仓库至关重要
针对性数据扫描
对于分析查询通常只关注表中的一部分列。列式存储只需读取相关列的数据避免了无关列的 I/O 开销。在处理大数据集时这种针对性的数据扫描可以极大提升查询性能。相比之下即使行式存储有索引对于需要多个列参与计算的查询可能仍需多次访问数据页以获取所有所需列的值。
高效聚合运算
列式存储非常适合执行大规模的聚合查询如 SUM、AVG、COUNT 等。由于数据按列组织相同列的值聚集在一起可以直接在列级别进行并行计算无需像行式存储那样跨行收集数据。这使得列式存储在处理复杂的分析查询时表现出色尤其是对于数据仓库和 BI商务智能应用。
冷热数据分离与存储优化
列式存储更容易实现冷热数据分离和存储层优化。例如可以为访问频率高的列设置更高的存储级别如 SSD而对于访问较少的列可以存储在成本更低的介质上。此外可以根据数据访问模式和压缩策略动态调整列的存储布局进一步优化存储效率。
列存计算友好
列式存储天然契合现代并行计算框架如 Spark、Hadoop 等和向量化执行引擎。这些框架和引擎通常以列作为基本处理单元与列式存储的数据布局完美匹配可以高效地进行批量数据处理和分析。
数据生命周期管理
在数据仓库环境中数据通常有明确的生命周期某些列可能仅在早期阶段被频繁查询随着时间推移变得不那么重要。列式存储使得对单个列进行独立的存储策略调整如归档、删除等更为容易有助于精细化的数据生命周期管理。
综上所述尽管行式存储数据库通过索引可以优化部分查询性能但在大数据分析、数据仓库、BI 等侧重于复杂查询和大规模数据处理的场景中列式存储凭借其高效压缩、针对性数据扫描、卓越的聚合运算能力、灵活的存储优化以及与现代计算框架的良好集成等优势提供了更为高效且成本效益高的解决方案。行式存储和列式存储各有适用场景实际应用中往往根据业务需求、数据规模、查询模式等因素综合考虑甚至在同一系统中结合使用两种存储模式如 HybridDB 等混合存储数据库。
基于前两问在列式存储中既然每一列都是单独存储的那在查询 2 中是如何通过筛选 order_date 范围后获取对应的 customer_id 的呢
在列式存储数据库中尽管每一列数据是单独存储的但数据库系统仍然会维护必要的元数据和索引来支持高效的查询。对于查询 2找出所有在 2023 年 4 月购买了产品的客户 ID列式存储数据库会通过以下步骤来获取对应的结果
列式索引
列式数据库通常会对查询频繁或用于过滤条件的列如 order_date建立索引。这种索引可能采用 B 树、位图索引、稀疏索引等多种形式目的是快速定位到符合条件的数据。例如对于 order_date 列可以构建一个按日期范围划分的索引结构使得查询特定时间段的记录变得高效。
筛选 order_date
查询首先在 order_date 列的索引中查找 2023 年 4 月对应的索引条目。索引结构帮助快速定位到这一时间范围内的订单记录。查询结果通常是索引条目中存储的行标识符row identifierRID或行组标识chunk ID它们指向实际数据存储的位置。
关联 customer_id
有了筛选出的行标识符后数据库系统会使用这些标识符去对应的 customer_id 列数据区段中查找相应的客户 ID。由于列式存储中数据按列组织customer_id 列的数据是连续存放的所以可以用高效的方式如一次批量读取获取所有筛选出的行对应的 customer_id 值。
结果合并
最后将从 customer_id 列获取的值与之前筛选出的行标识符或直接就是 customer_id 值取决于索引结构进行合并形成最终的查询结果集即所有在 2023 年 4 月购买了产品的客户 ID 列表。
虽然列式存储中的数据分散在不同列中但通过有效的索引结构和元数据管理数据库系统能够有效地定位和关联相关数据完成查询任务。这种方式避免了行式存储中可能需要的全表扫描或大量随机 I/O利用列式存储的优势实现了对特定列高效且有针对性的访问。对于分析查询尤其是涉及大数据集和复杂过滤条件的情况这种设计能显著提升查询性能。
Doris 安装 安装 Docker 略 安装 WSL wsl --install事实上在本地实践时直接通过执行上述命令安装即可期间第一次失败了再尝试执行就成功了。 如何使用 WSL 在 Windows 上安装 Linux WSL 安装与使用 按键 Win Q输入 wsl开始运行 WSL 若失败切换挂载即可。 wsl --list
wsl --setdefault DISTRO_NAME3WSL (358) ERROR: CreateProcessParseCommon:789: Failed to translate Z:/ # 报错: Please disable swap memory before installation.
# 临时禁用 Linux 系统中的交换内存
sudo swapoff -a修改内核参数 Doris 官方要求需要将 Linux 操作系统的内核参数设置为 2000000。 sudo sysctl -w vm.max_map_count2000000
sysctl vm.max_map_count拉取镜像 docker run apache/doris:build-env-ldb-toolchain-0.19-latest下载安装包 apache-doris-2.1.0-bin-x64.tar.gz mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz 启动镜像 docker run -d -it --namedoris -p 9030:9030 -p 8030:8030 apache/doris:build-env-ldb-toolchain-0.19-latest /bin/bash拷贝安装包至容器内 docker cp D:\doris\mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz doris:/opt
docker cp D:\doris\apache-doris-2.1.0-bin-x64.tar.gz doris:/opt进入容器内部解压安装包 docker exec -it doris bash
cd /opt/
tar -xvf apache-doris-2.1.0-bin-x64.tar.gz
tar -xzvf mysql-5.7.22-linux-glibc2.12-x86_64.tar.gz查看内网 IP 并配置 fe hostname -i
cd /opt/apache-doris-2.1.0-bin-x64/fe
vi conf/fe.conf
# 修改 priority_networks 内网 IP启动 fe ./bin/start_fe.sh --daemon
jps验证 fe 启动成功 curl http://127.0.0.1:8030/api/bootstrap
# 浏览器可直接访问 http://localhost:8030/login, 用户名 root, 密码为空MySQL 中连接 fe默认无密码 /opt/mysql-5.7.22-linux-glibc2.12-x86_64/bin/mysql -u root -P 9030 -h 127.0.0.1 --skip-ssl
show frontends\G;配置 be cd opt/apache-doris-2.1.0-bin-x64/be
vi conf/be.conf
# 修改 priority_networks 内网 IP设置 jdk 镜像的 jdk 的默认路径为 /usr/lib/jvm/java-1.8.0。 echo $JAVA_HOME
vi bin/start_be.sh
# 添加 export JAVA_HOME/usr/lib/jvm/java-1.8.0启动 be ./bin/start_be.sh --daemon在 MySQL 中连接 be但更推荐直接用第三方工具Navicat连接后执行语句 /opt/mysql-5.7.22-linux-glibc2.12-x86_64/bin/mysql -u root -P 9030 -h 127.0.0.1 --skip-ssl
ALTER SYSTEM ADD BACKEND 172.17.0.2:9050;
SHOW BACKENDS\G
# Alive: true 表示节点运行正常CREATE DATABASE demo;
USE demo;
CREATE TABLE
IFNOT EXISTS demo.example_tbl (user_id LARGEINT NOT NULL COMMENT user id,date DATE NOT NULL COMMENT ,city VARCHAR ( 20 ) COMMENT ,age SMALLINT COMMENT ,sex TINYINT COMMENT ,last_visit_date DATETIME REPLACE DEFAULT 1970-01-01 00:00:00 COMMENT ,cost BIGINT SUM DEFAULT 0 COMMENT ,max_dwell_time INT MAX DEFAULT 0 COMMENT ,min_dwell_time INT MIN DEFAULT 99999 COMMENT ) AGGREGATE KEY ( user_id, date, city, age, sex ) DISTRIBUTED BY HASH ( user_id ) BUCKETS 1 PROPERTIES ( replication_allocation tag.location.default: 1 );cd ~
vi test.csv
# 10000,2017-10-01,beijing,20,0,2017-10-01 06:00:00,20,10,10
# 10006,2017-10-01,beijing,20,0,2017-10-01 07:00:00,15,2,2
# 10001,2017-10-01,beijing,30,1,2017-10-01 17:05:45,2,22,22
# 10002,2017-10-02,shanghai,20,1,2017-10-02 12:59:12,200,5,5
# 10003,2017-10-02,guangzhou,32,0,2017-10-02 11:20:00,30,11,11
# 10004,2017-10-01,shenzhen,35,0,2017-10-01 10:00:15,100,3,3
# 10004,2017-10-03,shenzhen,35,0,2017-10-03 10:20:22,11,6,6curl --location-trusted -u root: -T test.csv -H column_separator:, http://127.0.0.1:8030/api/demo/example_tbl/_stream_load关闭命令 /opt/apache-doris-2.1.0-bin-x64/fe/bin/stop_fe.sh
/opt/apache-doris-2.1.0-bin-x64/be/bin/stop_be.sh● 官方文档 ● Windows 搭建参考资料
数据计算工具 Spark、PySpark
分布式计算、内存计算、批处理
● 官方文档https://spark.apache.org/
数据同步工具 CloudCanal
CloudCanal 是一款数据同步、迁移工具帮助企业构建高质量数据管道具备实时高效、精确互联、稳定可拓展、一站式、混合部署、复杂数据转换等优点。
基于 binlog 可以实现 MySQL 之间实时的数据同步同时支持在不同类型的数据源之间做数据同步。
CloudCanal 安装 安装 docker 和 docker-compose 略 确保以下端口未被占用
netstat -ano设置 - Resouces - ADVANCED 下建议将 docker 内存限制至少调至 6GBCloudCanal 要求至少 6GB 容器内存默认 docker 内存分配为 2GB 登录官方网站点击下载私有部署版按钮下载安装包 解压安装包 解压目录内容包括 镜像images 目录下四个 tar 结尾的压缩文件docker 容器编排文件位置解压目录/install_on_docker/docker-compose.yml 文件脚本位置解压目录/install_on_docker/scripts/windows 启动 CloudCanal 在 Windows CMD 窗口中进入 解压目录/scripts/windows执行脚本 install.bat。 浏览器访问 http://127.0.0.1:8111 使用试用账号登陆 账号testclougence.com密码clougence2021默认验证码777777 申请许可证 官方文档Docker 部署免费获取社区版许可证
任务调度 dolphinscheduler
专业的任务调度工具支持DAG有向无环图去配置任务间前驱后继的关系出错自动重试等
● 官方文档https://dolphinscheduler.apache.org/
BI工具 metabase
支持多种图表展示支持sql原生语句
● 官方文档https://www.metabase.com/ 文章转载自: http://www.morning.rykx.cn.gov.cn.rykx.cn http://www.morning.slfmp.cn.gov.cn.slfmp.cn http://www.morning.tdnbw.cn.gov.cn.tdnbw.cn http://www.morning.bzgpj.cn.gov.cn.bzgpj.cn http://www.morning.tbrnl.cn.gov.cn.tbrnl.cn http://www.morning.sfgzx.cn.gov.cn.sfgzx.cn http://www.morning.fpkpz.cn.gov.cn.fpkpz.cn http://www.morning.srxhd.cn.gov.cn.srxhd.cn http://www.morning.hengqilan.cn.gov.cn.hengqilan.cn http://www.morning.jbtzx.cn.gov.cn.jbtzx.cn http://www.morning.drfrm.cn.gov.cn.drfrm.cn http://www.morning.krhkb.cn.gov.cn.krhkb.cn http://www.morning.ndtmz.cn.gov.cn.ndtmz.cn http://www.morning.qctsd.cn.gov.cn.qctsd.cn http://www.morning.lfxcj.cn.gov.cn.lfxcj.cn http://www.morning.gxwyr.cn.gov.cn.gxwyr.cn http://www.morning.rdsst.cn.gov.cn.rdsst.cn http://www.morning.zqcgt.cn.gov.cn.zqcgt.cn http://www.morning.rhkgz.cn.gov.cn.rhkgz.cn http://www.morning.ljxps.cn.gov.cn.ljxps.cn http://www.morning.ftmzy.cn.gov.cn.ftmzy.cn http://www.morning.yqjjn.cn.gov.cn.yqjjn.cn http://www.morning.rbnp.cn.gov.cn.rbnp.cn http://www.morning.rbktw.cn.gov.cn.rbktw.cn http://www.morning.bxbnf.cn.gov.cn.bxbnf.cn http://www.morning.rhjsx.cn.gov.cn.rhjsx.cn http://www.morning.rwzqn.cn.gov.cn.rwzqn.cn http://www.morning.vaqmq.cn.gov.cn.vaqmq.cn http://www.morning.hrtfz.cn.gov.cn.hrtfz.cn http://www.morning.dyght.cn.gov.cn.dyght.cn http://www.morning.bpknt.cn.gov.cn.bpknt.cn http://www.morning.xkwyk.cn.gov.cn.xkwyk.cn http://www.morning.jczjf.cn.gov.cn.jczjf.cn http://www.morning.jzykw.cn.gov.cn.jzykw.cn http://www.morning.lwmzp.cn.gov.cn.lwmzp.cn http://www.morning.ylyzk.cn.gov.cn.ylyzk.cn http://www.morning.qggm.cn.gov.cn.qggm.cn http://www.morning.hytr.cn.gov.cn.hytr.cn http://www.morning.hdwjb.cn.gov.cn.hdwjb.cn http://www.morning.wlsrd.cn.gov.cn.wlsrd.cn http://www.morning.rybr.cn.gov.cn.rybr.cn http://www.morning.xbrxk.cn.gov.cn.xbrxk.cn http://www.morning.bpmdq.cn.gov.cn.bpmdq.cn http://www.morning.rlns.cn.gov.cn.rlns.cn http://www.morning.jwwfk.cn.gov.cn.jwwfk.cn http://www.morning.bhbxd.cn.gov.cn.bhbxd.cn http://www.morning.kpbgvaf.cn.gov.cn.kpbgvaf.cn http://www.morning.pwdmz.cn.gov.cn.pwdmz.cn http://www.morning.ltksw.cn.gov.cn.ltksw.cn http://www.morning.rmtxp.cn.gov.cn.rmtxp.cn http://www.morning.wrtsm.cn.gov.cn.wrtsm.cn http://www.morning.qqklk.cn.gov.cn.qqklk.cn http://www.morning.rykn.cn.gov.cn.rykn.cn http://www.morning.shnqh.cn.gov.cn.shnqh.cn http://www.morning.rnxs.cn.gov.cn.rnxs.cn http://www.morning.npfkw.cn.gov.cn.npfkw.cn http://www.morning.dcdhj.cn.gov.cn.dcdhj.cn http://www.morning.tzmjc.cn.gov.cn.tzmjc.cn http://www.morning.llthz.cn.gov.cn.llthz.cn http://www.morning.pyncx.cn.gov.cn.pyncx.cn http://www.morning.mxptg.cn.gov.cn.mxptg.cn http://www.morning.jklns.cn.gov.cn.jklns.cn http://www.morning.jzbjx.cn.gov.cn.jzbjx.cn http://www.morning.demoux.com.gov.cn.demoux.com http://www.morning.qmncj.cn.gov.cn.qmncj.cn http://www.morning.gthgf.cn.gov.cn.gthgf.cn http://www.morning.ppghc.cn.gov.cn.ppghc.cn http://www.morning.wqbbc.cn.gov.cn.wqbbc.cn http://www.morning.cwgpl.cn.gov.cn.cwgpl.cn http://www.morning.owenzhi.com.gov.cn.owenzhi.com http://www.morning.npqps.cn.gov.cn.npqps.cn http://www.morning.fylsz.cn.gov.cn.fylsz.cn http://www.morning.mxnfh.cn.gov.cn.mxnfh.cn http://www.morning.brwp.cn.gov.cn.brwp.cn http://www.morning.nbsfb.cn.gov.cn.nbsfb.cn http://www.morning.htjwz.cn.gov.cn.htjwz.cn http://www.morning.ftync.cn.gov.cn.ftync.cn http://www.morning.qgdsd.cn.gov.cn.qgdsd.cn http://www.morning.nggbf.cn.gov.cn.nggbf.cn http://www.morning.zylrk.cn.gov.cn.zylrk.cn