当前位置: 首页 > news >正文

现在那个网站做视频最赚钱网络营销活动策划方案模板

现在那个网站做视频最赚钱,网络营销活动策划方案模板,wordpress设置登录背景,桂林分销网站开发Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因 一、背景二、查找数据丢失流程三、数据丢失原因四、解决方法一、背景 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因数据丢失一般常见需求排查的方向: 数据是否采集到hdfs上采集…

Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因

  • 一、背景
  • 二、查找数据丢失流程
  • 三、数据丢失原因
  • 四、解决方法

一、背景

  • 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因

数据丢失一般常见需求排查的方向:

  • 数据是否采集到hdfs上
  • 采集到hdfs的话,进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
  • 数据没有采集到的话,进一步定位分析没有采集到的原因,目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

  • 首先拿一条丢失数据的id,去确认这条数据是否采集到hdfs上,发现成功采集到了hdfs上
  • 观察hdfs文件生成时间,发现这张表的数据文件生成时间比较晚
    • 初步判断出现了数据库主从延迟或者采集延迟,但是spark任务会等到主从延迟或者采集延迟结束才会执行,这样应该能确保不会遗漏数据,进一步确认任务执行情况
    • 发现spark任务并没有出现延迟执行的情况,因此就出现了特殊情况
  • 再去查看数据库中其他表的采集情况,发现其他表的hdfs数据文件生成并没有延迟,这就说明只有这张数据丢失的表产生了采集延迟,进一步排查分析这张表
  • 发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的,这表明近一天的数据是在同一时间采集到了hdfs
  • 查看这张数据丢失表数据情况,发现这张表在不同小时的数据工用了相同的gtid,这表明这些数据来自同一个事件
  • 进一步查看数据库其他表在不同小时gtid的情况,通过比较gtid,发现丢失数据这张表使用的gtid符合递增情况
  • 至此,基本找到数据没有加载到hive的原因
  • <
http://www.tj-hxxt.cn/news/124501.html

相关文章:

  • 科技网站欣赏百度快速排名优化服务
  • 形容网站做的好处网站服务器多少钱一年
  • 网站开发费用多少钱网络营销方式
  • 如何用手机制作网页链接上海短视频seo优化网站
  • 政和网站建设wzjseo怎么建立自己的网站平台
  • 做网站有什么平台长尾词挖掘
  • 做h游戏视频网站百度旗下推广平台有哪些
  • 台州网站推广百度如何优化
  • wordpress主题开发层级爱站网seo工具包
  • 免费的行情网站ifind是兰州seo培训
  • 全国职业生涯规划大赛官网谷歌seo是指什么意思
  • 乌鲁木齐建设局官方网站青岛网站优化
  • 网站制作公司起名武汉大学人民医院精神卫生中心
  • 浙江建设职业技术学院提前招网站百度云盘登录电脑版
  • 做酒水网站有哪些济宁百度推广公司
  • 九天利建公司简介长沙官网seo服务
  • 网站推广seo教程关键词快速优化排名软件
  • java做网站编程竞价托管多少钱一个月
  • 小鱼赚钱网站能重复做任务吗网上推广赚钱项目
  • 服务器租赁合同范本seo关键词排名网络公司
  • 网站做百度推广需要什么材料线上推广渠道有哪些
  • wordpress 天气seo查询seo
  • 网站建设多少钱个人搜索引擎营销的优缺点及案例
  • 做最最优秀的视频网站有哪些百度快照怎么没有了
  • 专业做网站方案网址查询站长工具
  • 结构设计网站b站推广网站入口
  • wish网站应该怎么做首页排名seo
  • 静态网页有哪些网站槐荫区网络营销seo
  • 做阿里巴巴英文网站搜索大全引擎
  • 设计企业网站主页图片百度网盘怎么提取别人资源