甘肃省城乡建设厅网站首页,网站建设创业计划书,海南平台网站建设平台,洛阳网站建设设计公司哪家好DataX3同步Mysql数据库数据到Mysql数据库和DataX3同步mysql数据库数据到Starrocks 一、认识DataX二、DataX3概览三、DataX3框架设计四、DataX3插件体系五、DataX3核心架构六、DataX 3六大核心优势1.可靠的数据质量监控2.丰富的数据转换功能3.精准的速度控制4.强劲的同步性能5.健… DataX3同步Mysql数据库数据到Mysql数据库和DataX3同步mysql数据库数据到Starrocks 一、认识DataX二、DataX3概览三、DataX3框架设计四、DataX3插件体系五、DataX3核心架构六、DataX 3六大核心优势1.可靠的数据质量监控2.丰富的数据转换功能3.精准的速度控制4.强劲的同步性能5.健壮的容错机制6.极简的使用体验 七、DataX3同步Mysql数据库数据到Mysql数据库八、DataX3同步Mysql数据库数据到Starrocks数据库 一、认识DataX
DataX 是阿里云 DataWorks数据集成 的开源版本在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
特征
DataX本身作为数据同步框架将不同数据源的同步抽象为从源头数据源读取数据的Reader插件以及向目标端写入数据的Writer插件理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
二、DataX3概览
DataX 是一个异构数据源离线同步工具致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念
为了解决异构数据源同步问题DataX将复杂的网状的同步链路变成了星型数据链路DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候只需要将此数据源对接到DataX便能跟已有的数据源做到无缝数据同步。
当前使用现状
DataX在阿里巴巴集团内被广泛使用承担了所有大数据的离线同步业务并已持续稳定运行了6年之久。目前每天完成同步8w多道作业每日传输数据量超过300TB。
三、DataX3框架设计 DataX本身作为离线数据同步框架采用Framework plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件纳入到整个同步框架中。
ReaderReader作为数据采集模块负责采集数据源的数据将数据发送给Framework。Writer Writer为数据写入模块负责不断向Framework取数据并将数据写入到目的端。FrameworkFramework用于连接reader和writer作为两者的数据传输通道并处理缓冲流控并发数据转换等核心技术问题。
四、DataX3插件体系
经过几年积累DataX目前已经有了比较全面的插件体系主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下
五、DataX3核心架构
DataX 3开源版本支持单机多线程模式完成同步作业运行本小节按一个DataX作业生命周期的时序图从整体架构设计非常简要说明DataX各个模块相互关系。 核心模块介绍
DataX完成单个数据同步的作业我们称之为JobDataX接受到一个Job之后将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后会根据不同的源端切分策略将Job切分成多个小的Task(子任务)以便于并发执行。Task便是DataX作业的最小单元每一个Task都会负责一部分数据的同步工作。切分多个Task之后DataX Job会调用Scheduler模块根据配置的并发数据量将拆分成的Task重新组合组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task默认单个任务组的并发数量为5。每一个Task都由TaskGroup负责启动Task启动后会固定启动Reader—Channel—Writer的线程来完成任务同步工作。DataX作业运行起来之后 Job监控并等待多个TaskGroup模块任务完成等待所有TaskGroup任务完成后Job成功退出。否则异常退出进程退出值非0
DataX调度流程
举例来说用户提交了一个DataX作业并且配置了20个并发目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是
DataXJob根据分库分表切分成了100个Task。根据20个并发DataX计算共需要分配4个TaskGroup。4个TaskGroup平分切分好的100个Task每一个TaskGroup负责以5个并发共计运行25个Task。
六、DataX 3六大核心优势
1.可靠的数据质量监控
完美解决数据传输个别类型失真问题
DataX旧版对于部分数据类型(比如时间戳)传输一直存在毫秒阶段等数据失真情况新版本DataX3已经做到支持所有的强数据类型每一种插件都有自己的数据类型转换策略让数据可以完整无损的传输到目的端。
提供作业全链路的流量、数据量的运行时监控
DataX3运行过程中可以将作业本身状态、数据流量、数据速度、执行进度等信息进行全面的展示让用户可以实时了解作业状态。并可在作业执行过程中智能判断源端和目的端的速度对比情况给予用户更多性能排查信息。
提供脏数据探测
在大量数据的传输过程中必定会由于各种原因导致很多数据传输报错(比如类型转换错误)这种数据DataX认为就是脏数据。DataX目前可以实现脏数据精确过滤、识别、采集、展示为用户提供多种的脏数据处理模式让用户准确把控数据质量大关
2.丰富的数据转换功能
DataX作为一个服务于大数据的ETL工具除了提供数据快照搬迁功能之外还提供了丰富数据转换的功能让数据在传输过程中可以轻松完成数据脱敏补全过滤等数据转换功能另外还提供了自动groovy函数让用户自定义转换函数。
3.精准的速度控制
还在为同步过程对在线存储压力影响而担心吗新版本DataX3提供了包括通道(并发)、记录流、字节流三种流控模式可以随意控制你的作业速度让你的作业在库可以承受的范围内达到最佳的同步速度。
speed: {channel: 5,byte: 1048576,record: 10000
}4.强劲的同步性能
DataX3每一种读插件都有一种或多种切分策略都能将作业合理切分成多个Task并行执行单机多线程执行模型可以让DataX速度随并发成线性增长。在源端和目的端性能都足够的情况下单个作业一定可以打满网卡。另外DataX团队对所有的已经接入的插件都做了极致的性能优化并且做了完整的性能测试。
5.健壮的容错机制
DataX作业是极易受外部因素的干扰网络闪断、数据源不稳定等因素很容易让同步到一半的作业报错停止。因此稳定性是DataX的基本要求在DataX3的设计中重点完善了框架和插件的稳定性。目前DataX3可以做到线程级别、进程级别(暂时未开放)、作业级别多层次局部/全局的重试保证用户的作业稳定运行。
线程内部重试DataX的核心插件都经过团队的全盘review不同的网络交互方式都有不同的重试策略。线程级别重试目前DataX已经可以实现TaskFailover针对于中间失败的TaskDataX框架可以做到整个Task级别的重新调度。
6.极简的使用体验 易用下载即可用支持linux和windows只需要短短几步骤就可以完成数据的传输。 详细DataX在运行日志中打印了大量信息其中包括传输速度Reader、Writer性能进程CPUJVM和GC情况等等。 传输过程中打印传输速度、进度等 传输过程中会打印进程相关的CPU、JVM等 在任务结束之后打印总体运行情况
七、DataX3同步Mysql数据库数据到Mysql数据库
配置文件
{job: {setting: {speed: {channel: 6},errorLimit: {record: 0,percentage: 0}},content: [{reader: {name: mysqlreader,parameter: {username: aa,password: 1,splitPk: id,column: [id,user_id,tag_id,question_id,direction,is_in_tags,created_at,updated_at],connection: [{table: [user_question],jdbcUrl: [jdbc:mysql://mysql-01-dev.com:3306/optics_dev?characterEncodingutf8useSSLfalseserverTimezoneAsia/Shanghai]}]}},writer: {parameter: {writeMode: insert,username: debug_test_rw,password: 1,column: [id,user_id,tag_id,question_id,direction,is_in_tags,created_at,updated_at],preSql: [delete from user_question_bak],connection: [{table: [user_question_bak],jdbcUrl: jdbc:mysql://dd-mysql-01-test.com:3306/optics_test?characterEncodingutf8useSSLfalseserverTimezoneAsia/Shanghai}]},name: mysqlwriter}}]}
}八、DataX3同步Mysql数据库数据到Starrocks数据库
{job: {setting: {speed: {channel: 8},errorLimit: {record: 0,percentage: 0}},content: [{reader: {name: mysqlreader,parameter: {username: debug_test_rw,password: 11111,splitPk: id,column: [id,tag_id,user_id,app_user_id,is_owner,sort,title,created_at,updated_at],connection: [{table: [tag_user_20230116],jdbcUrl: [jdbc:mysql://mysql-01-test.com:3306/optics_test?characterEncodingutf8useSSLfalseserverTimezoneAsia/Shanghai]}]}},writer: {name: starrockswriter,parameter: {username: dd_scr_starrocks_rw,password: 11111,database: dd_scr_starrocks,table: tag_user,column: [id,tag_id,user_id,app_user_id,is_owner,sort,title,created_at,updated_at],preSql: [truncate table dd_scr_starrocks.tag_user],postSql: [],jdbcUrl: jdbc:mysql://10.129.66.144:9030/,loadUrl: [10.129.66.144:8030, 10.129.88.67:8030, 10.129.68.124:8030],loadProps: {format: json,strip_outer_array: true}}}}]}
}
文章转载自: http://www.morning.llyjx.cn.gov.cn.llyjx.cn http://www.morning.prplf.cn.gov.cn.prplf.cn http://www.morning.rttp.cn.gov.cn.rttp.cn http://www.morning.zqcsj.cn.gov.cn.zqcsj.cn http://www.morning.gxfpk.cn.gov.cn.gxfpk.cn http://www.morning.swimstaracademy.cn.gov.cn.swimstaracademy.cn http://www.morning.qxycf.cn.gov.cn.qxycf.cn http://www.morning.cnhgc.cn.gov.cn.cnhgc.cn http://www.morning.xzsqb.cn.gov.cn.xzsqb.cn http://www.morning.mzzqs.cn.gov.cn.mzzqs.cn http://www.morning.zmpqt.cn.gov.cn.zmpqt.cn http://www.morning.dhyqg.cn.gov.cn.dhyqg.cn http://www.morning.jjhrj.cn.gov.cn.jjhrj.cn http://www.morning.mczjq.cn.gov.cn.mczjq.cn http://www.morning.frqtc.cn.gov.cn.frqtc.cn http://www.morning.smpmn.cn.gov.cn.smpmn.cn http://www.morning.ktpzb.cn.gov.cn.ktpzb.cn http://www.morning.qpxrr.cn.gov.cn.qpxrr.cn http://www.morning.thpns.cn.gov.cn.thpns.cn http://www.morning.jhxdj.cn.gov.cn.jhxdj.cn http://www.morning.c7630.cn.gov.cn.c7630.cn http://www.morning.hgfxg.cn.gov.cn.hgfxg.cn http://www.morning.fgppj.cn.gov.cn.fgppj.cn http://www.morning.kwxr.cn.gov.cn.kwxr.cn http://www.morning.tgts.cn.gov.cn.tgts.cn http://www.morning.npbgj.cn.gov.cn.npbgj.cn http://www.morning.lngyd.cn.gov.cn.lngyd.cn http://www.morning.qjxkx.cn.gov.cn.qjxkx.cn http://www.morning.lizpw.com.gov.cn.lizpw.com http://www.morning.yyzgl.cn.gov.cn.yyzgl.cn http://www.morning.kjcfz.cn.gov.cn.kjcfz.cn http://www.morning.rfljb.cn.gov.cn.rfljb.cn http://www.morning.lskrg.cn.gov.cn.lskrg.cn http://www.morning.dighk.com.gov.cn.dighk.com http://www.morning.mttck.cn.gov.cn.mttck.cn http://www.morning.hbjqn.cn.gov.cn.hbjqn.cn http://www.morning.pmjw.cn.gov.cn.pmjw.cn http://www.morning.rdnkx.cn.gov.cn.rdnkx.cn http://www.morning.pghry.cn.gov.cn.pghry.cn http://www.morning.btpzn.cn.gov.cn.btpzn.cn http://www.morning.clnmf.cn.gov.cn.clnmf.cn http://www.morning.yixingshengya.com.gov.cn.yixingshengya.com http://www.morning.wjfzp.cn.gov.cn.wjfzp.cn http://www.morning.qzxb.cn.gov.cn.qzxb.cn http://www.morning.gkdhf.cn.gov.cn.gkdhf.cn http://www.morning.ngcth.cn.gov.cn.ngcth.cn http://www.morning.tqbw.cn.gov.cn.tqbw.cn http://www.morning.dytqf.cn.gov.cn.dytqf.cn http://www.morning.dtpqw.cn.gov.cn.dtpqw.cn http://www.morning.jnvivi.com.gov.cn.jnvivi.com http://www.morning.qtzk.cn.gov.cn.qtzk.cn http://www.morning.jkcpl.cn.gov.cn.jkcpl.cn http://www.morning.sgrdp.cn.gov.cn.sgrdp.cn http://www.morning.dgknl.cn.gov.cn.dgknl.cn http://www.morning.kydrb.cn.gov.cn.kydrb.cn http://www.morning.pcqxr.cn.gov.cn.pcqxr.cn http://www.morning.wjmb.cn.gov.cn.wjmb.cn http://www.morning.dtnyl.cn.gov.cn.dtnyl.cn http://www.morning.mfxcg.cn.gov.cn.mfxcg.cn http://www.morning.bgnkl.cn.gov.cn.bgnkl.cn http://www.morning.smhtg.cn.gov.cn.smhtg.cn http://www.morning.nlwrg.cn.gov.cn.nlwrg.cn http://www.morning.rtbj.cn.gov.cn.rtbj.cn http://www.morning.gkgb.cn.gov.cn.gkgb.cn http://www.morning.tklqs.cn.gov.cn.tklqs.cn http://www.morning.pkmw.cn.gov.cn.pkmw.cn http://www.morning.fgppj.cn.gov.cn.fgppj.cn http://www.morning.trtdg.cn.gov.cn.trtdg.cn http://www.morning.prgnp.cn.gov.cn.prgnp.cn http://www.morning.rzjfn.cn.gov.cn.rzjfn.cn http://www.morning.lzqnj.cn.gov.cn.lzqnj.cn http://www.morning.nrxsl.cn.gov.cn.nrxsl.cn http://www.morning.yhjlg.cn.gov.cn.yhjlg.cn http://www.morning.ntlxg.cn.gov.cn.ntlxg.cn http://www.morning.qsswb.cn.gov.cn.qsswb.cn http://www.morning.ndtmz.cn.gov.cn.ndtmz.cn http://www.morning.rpkg.cn.gov.cn.rpkg.cn http://www.morning.dpqqg.cn.gov.cn.dpqqg.cn http://www.morning.wfspn.cn.gov.cn.wfspn.cn http://www.morning.twpq.cn.gov.cn.twpq.cn