当前位置: 首页 > news >正文

有没有通信专业业余做兼职的网站网站建设郑州

有没有通信专业业余做兼职的网站,网站建设郑州,wordpress acf教程,如何进入谷歌网站一、目的 在离线数仓中#xff0c;需要用Flume去采集Kafka中的数据#xff0c;然后写入HDFS中。 由于每种数据类型的频率、数据大小、数据规模不同#xff0c;因此每种数据的采集需要不同的Flume配置文件。玩了几天Flume#xff0c;感觉Flume的使用难点就是配置文件 二、…一、目的 在离线数仓中需要用Flume去采集Kafka中的数据然后写入HDFS中。 由于每种数据类型的频率、数据大小、数据规模不同因此每种数据的采集需要不同的Flume配置文件。玩了几天Flume感觉Flume的使用难点就是配置文件 二、使用场景 转向比数据是数据频率为5分钟的数据类型代表数据量很小、频率不高因此搞定了转向比数据的采集就搞定了这一类低频率数据的实时采集问题 1台设备每日的转向比数据规模是30KB25台设备的数据规模则是750KB 三、转向比数据ODS层建表 create external table if not exists ods_turnratio(turnratio_json string ) comment 转向比数据外部表——静态分区 partitioned by (day string) row format delimited fields terminated by \x001 lines terminated by \n stored as SequenceFile tblproperties(skip.header.line.count1); 四、转向比数据的配置文件 ## agent a1 a1.sources s1 a1.channels c1 a1.sinks k1 ## configure source s1 a1.sources.s1.type org.apache.flume.source.kafka.KafkaSource a1.sources.s1.kafka.bootstrap.servers 192.168.0.27:9092 a1.sources.s1.kafka.topics topic_b_turnratio a1.sources.s1.kafka.consumer.group.id turnratio_group a1.sources.s1.kafka.consumer.auto.offset.reset latest a1.sources.s1.batchSize 1000 ## configure channel c1 ## a1.channels.c1.type memory ## a1.channels.c1.capacity 10000 ## a1.channels.c1.transactionCapacity 1000 a1.channels.c1.type file a1.channels.c1.checkpointDir /home/data/flumeData/checkpoint/turnratio a1.channels.c1.dataDirs /home/data/flumeData/flumedata/turnratio ## configure sink k1 a1.sinks.k1.type hdfs a1.sinks.k1.hdfs.path hdfs://hurys23:8020/user/hive/warehouse/hurys_dc_ods.db/ods_turnratio/day%Y-%m-%d/ a1.sinks.k1.hdfs.filePrefix turnratio a1.sinks.k1.hdfs.fileSuffix .loga1.sinks.k1.hdfs.round true a1.sinks.k1.hdfs.roundValue 10 a1.sinks.k1.hdfs.roundUnit second a1.sinks.k1.hdfs.rollSize 62500 a1.sinks.k1.hdfs.rollCount 0 a1.sinks.k1.hdfs.rollInterval 0 a1.sinks.k1.hdfs.idleTimeout 600 a1.sinks.k1.hdfs.minBlockReplicas 1 ## Bind the source and sink to the channel a1.sources.s1.channels c1 a1.sinks.k1.channel c1 注意62500约为61KB 五、Flume写入HDFS结果 Flume根据时间戳按照ODS层表的分区将数据写入对应HDFS文件 25台设备50分钟1个文件文件大小66.18 KB  六、ODS表刷新分区后查验数据 一刷新表分区 MSCK REPAIR TABLE ods_turnratio; 二查看表数据 select * from ods_turnratio; 三验证数据完整性 --2023-11-19 数据基本完整 23时297条 标准300 少3条 --2023-11-20 数据基本完整 23时299条 标准300 少1条 数据基本完整尤其是调度文件大小之后 19日a1.sinks.k1.hdfs.rollSize 31250        数据基本完整 23时297条 标准300 少3条 20日a1.sinks.k1.hdfs.rollSize 62500        数据基本完整 23时299条 标准300 少1条 七、注意点 一配置文件中的重点是红色标记的几点 a1.sinks.k1.hdfs.round true a1.sinks.k1.hdfs.roundValue 10 a1.sinks.k1.hdfs.roundUnit second a1.sinks.k1.hdfs.rollSize 62500 a1.sinks.k1.hdfs.rollCount 0 a1.sinks.k1.hdfs.rollInterval 0 a1.sinks.k1.hdfs.idleTimeout 600 a1.sinks.k1.hdfs.minBlockReplicas 1 二任务配置文件中rollSize参数设置可大不可小 rollSize参数小的话数据会丢失大的话没问题 配置文件的参数还是不断调试中争取调到最优的状态。能够及时、完整的消费Kafka数据并且能够最大化的利用HDFS资源。 目前就先这样如果有问题的话后面再更新
http://www.tj-hxxt.cn/news/136867.html

相关文章:

  • 杭州 seo网站建设 网络服务wordpress 不显示时间
  • 下载网站的服务器文件菏泽建设信息网官网
  • 做电商网站的设计思路有什么意思哪个网站可以做加工代理的
  • 网站底部样式网站中英文切换怎麼做
  • 怎么自己在百度上做网站广州手机软件开发定制
  • 四川seo整站优化费用阿里巴巴国际站怎么注册
  • 西安微信商城网站设计企业网站建设预算
  • 网站被k查询网站开发顶岗报告
  • 广州网站建设广州网络推广公司排名广州seo推广服务
  • 做洗化的网站做网站都用到哪些软件
  • 百度新网站收录大连网站外包
  • 自己电脑做电影网站seo网站优化公司
  • 精品课程网站建设总结报告长春网站建设致电吉网传媒优
  • wordpress原创保护seo优化推广技巧
  • 网站推广有哪些方法编程app下载
  • 网站开发文章在深圳找工作哪个网站好
  • 创建自己的免费网站p2vr做的网站上传
  • 档案网站建设经验软装设计收费标准
  • 乐清定制网站建设域名注册了 如何做网站
  • 做网站互联网公司商丘云网广告有限公司
  • 做商城网站服务器配置怎么选择中国营销网官网
  • 中小型网站建设价位网站建设 软件有哪些方面
  • 免费网站建设模板下载如何制作网络投票的网页
  • 文山专业网站建设哪家好镇江市住房与城乡建设部网站
  • 网站前端切图做多个页面在东莞怎么找工作
  • 怎么做万网网站吗微信小程序api是什么
  • 天猫秘券网站怎么做做百度移动端网站软件
  • 诸暨网站建设公司wordpress解决速度慢
  • 网站开发类论文题目微商城首页
  • 企业网站建设市场分析网站开发公司模板