当前位置: 首页 > news >正文

做易经网站国家职业资格证书官网

做易经网站,国家职业资格证书官网,苏州商品关键词优化,wordpress调用热评文章文章目录 数据清洗#xff08;ETL#xff09;概述案例需求和分析代码实现和结果分析 数据清洗#xff08;ETL#xff09;概述 “ETL#xff0c;是英文Extract-Transform-Load的缩写#xff0c;用来描述将数据从来源端经过抽取#xff08;Extract#xff09;、转换ETL概述案例需求和分析代码实现和结果分析 数据清洗ETL概述 “ETL是英文Extract-Transform-Load的缩写用来描述将数据从来源端经过抽取Extract、转换Transform、加载Load至目的端的过程。ETL一词较常用在数据仓库中但其对象并不限于数据仓库。 在运行核心业务MapReduce程序之前往往要先对数据进行清洗清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序不需要运行Reduce程序。 案例需求和分析 有一个日志数据集我们要去除日志中字段个数小于等于11的日志。 部分数据集 我们期望输出的数据每行字段长度都大于11所以需要在Map阶段对输入的数据根据规则进行过滤清洗。 代码实现和结果分析 package etl;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WebLogDriver {public static void main(String[] args) throws Exception {// 输入输出路径需要根据自己电脑上实际的输入输出路径设置args new String[] { D:/input/inputlog.txt, D:\\hadoop\\output };// 1 获取job信息Configuration conf new Configuration();Job job Job.getInstance(conf);// 2 加载jar包job.setJarByClass(WebLogDriver.class);// 3 关联mapjob.setMapperClass(WebLogMapper.class);//4设置map的输出类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(NullWritable.class);//5 设置最终输出类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);// 6取消reduce阶段设置reducetask个数为0job.setNumReduceTasks(0);// 7 设置输入和输出路径FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));//8 提交boolean b job.waitForCompletion(true);System.exit(b ? 0 : 1);} }package etl;import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WebLogMapper extends MapperLongWritable, Text,Text, NullWritable {Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//获取一行String line value.toString();//ETLboolean result parseLog(line,context);if (!result){return;}//写出context.write(value,NullWritable.get());}private boolean parseLog(String line, Context context) {String[] fields line.split( );if (fields.length11){return true;}else {return false;}} } 输出结果 可以发现数据清洗后少了很多行这就把不符合要求的数据去除掉了。
http://www.tj-hxxt.cn/news/218017.html

相关文章:

  • 为古汉字老人做网站wordpress 文件上传功能
  • 网站链接加密wordpress虚拟主机安装教程
  • 网站可以一个人做吗网站图片怎么换
  • flash网站制作单选框和复选框ui组件重庆微信企业网站
  • 新网站怎么做wordpress更改图片
  • 微信商城网站怎么开发九江有没有做网站的公司
  • wordpress 多站点 固定链接济南营销型网站建设哪家好
  • 个人网站icp备案号服装企业的网站建设
  • 阿里云购买网站登录wordpress 分类下怎么调用带有缩略图的文章?
  • 网站建设开票单位景观石网站建设方案
  • 网站页面设计流程电商网站更适合
  • 怎样通过网盘做电影网站想代理个网站建设平台
  • 做门户网站需要学什么知识企业网站建设包括哪些
  • 无锡建设机械网站怎么才能做电商
  • 黑龙江省建设厅网站的电话wordpress建站优势
  • 空间站做网站有什么网站底部浮动广告代码
  • 厦门网站建设哪好网站建设标签
  • 哈尔滨 做网站三合一静态网站
  • 网站快速优化排名排名青岛关键词排名哪家好
  • 成都网站营销推广公司扬州市建设局网站
  • 营销类网站如何优化济宁网页
  • 怎样在文章后做网站链接娄底seo
  • 网站服务器好北京微信网站建设报价单
  • 农产品的网站建设与维护论文网站建设教程流程图
  • 建站系统有哪些免费网站免费进入在线
  • 制作网站的平台哈尔滨营销型网站建设
  • 期末作业做网站的心得体会手机wap网站html源码
  • 自己买域名可以做网站吗三明 网站建设
  • 东营网站建设制作门户网站首页
  • 盐城专业做网站较好的公司疫苗最新官方消息