当前位置: 首页 > news >正文 网站模版开发提供网站建设的理由 news 2025/10/26 16:08:00 网站模版开发,提供网站建设的理由,网站架构包括,深圳市9号文目录 一、目的与要求 二、实验内容 三、实验步骤 1、安装Hadoop和Spark 2、HDFS常用操作 3、Spark读取文件系统的数据 四、结果分析与实验体会 一、目的与要求 1、掌握在Linux虚拟机中安装Hadoop和Spark的方法#xff1b; 2、熟悉HDFS的基本使用方法#xff1b; 3、掌…目录 一、目的与要求 二、实验内容 三、实验步骤 1、安装Hadoop和Spark 2、HDFS常用操作 3、Spark读取文件系统的数据 四、结果分析与实验体会 一、目的与要求 1、掌握在Linux虚拟机中安装Hadoop和Spark的方法 2、熟悉HDFS的基本使用方法 3、掌握使用Spark访问本地文件和HDFS文件的方法。 二、实验内容 1、安装Hadoop和Spark 进入Linux系统完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后再安装SparkLocal模式。 2、HDFS常用操作 使用Hadoop提供的Shell命令完成如下操作 1启动Hadoop在HDFS中创建用户目录“/user/你的名字的拼音”。以张三同学为例创建 /user/zhangsan 下同 2在Linux系统的本地文件系统的“/home/zhangsan”目录下新建一个文本文件test.txt并在该文件中至少十行英文语句然后上传到HDFS的“/user/zhangsan”目录下 3把HDFS中“/user/zhangsan”目录下的test.txt文件下载到Linux系统的本地文件系统中的“/tmp”目录下 4将HDFS中“/user/zhangsan”目录下的test.txt文件的内容输出到终端中进行显示 5在HDFS中的“/”目录下创建子目录input把HDFS中“/user/zhangsan”目录下的test.txt文件复制到“/input”目录下 6删除HDFS中“/user/zhangsan”目录下的test.txt文件 7查找HDFS中所有的 .txt文件 8使用hadoop-mapreduce-examples-3.1.3.jar程序对/input目录下的文件进行单词个数统计写出运行命令并验证运行结果。 3、Spark读取文件系统的数据 1在pyspark中读取Linux系统本地文件“/home/zhangsan/test.txt”然后统计出文件的行数 2在pyspark中读取HDFS系统文件“/user/zhangsan/test.txt”然后统计出文件的行数 3编写独立应用程序读取HDFS系统文件“/user/zhangsan/test.txt”然后统计出文件的行数通过 spark-submit 提交到 Spark 中运行程序。 三、实验步骤 1、安装Hadoop和Spark 进入Linux系统完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后再安装SparkLocal模式。具体安装步骤可以参照我前面写的博客 大数据存储技术1—— Hadoop简介及安装配置-CSDN博客https://blog.csdn.net/Morse_Chen/article/details/134833801Spark环境搭建和使用方法-CSDN博客https://blog.csdn.net/Morse_Chen/article/details/134979681 2、HDFS常用操作 1启动Hadoop在HDFS中创建用户目录“/user/你的名字的拼音”。以张三同学为例创建 /user/zhangsan 下同 [rootbigdata zhc]# start-dfs.sh [rootbigdata zhc]# jps [rootbigdata zhc]# hdfs dfs -mkdir -p /user/zhc [rootbigdata zhc]# hdfs dfs -ls /user 2在Linux系统的本地文件系统的“/home/zhangsan”目录下新建一个文本文件test.txt并在该文件中至少十行英文语句然后上传到HDFS的“/user/zhangsan”目录下 [rootbigdata zhc]# cd /home/zhc [rootbigdata zhc]# vi test.txt [rootbigdata zhc]# hdfs dfs -put /home/zhc/test.txt /user/zhc test.txt 文件内容如下 welcome to linux hello hadoop spark is fast hdfs is good start pyspark use python scala and R great success I love spark ten 这里可以看到上传成功了。 3把HDFS中“/user/zhangsan”目录下的test.txt文件下载到Linux系统的本地文件系统中的“/tmp”目录下 [rootbigdata zhc]# hdfs dfs -get /user/zhc/test.txt /tmp/ 4将HDFS中“/user/zhangsan”目录下的test.txt文件的内容输出到终端中进行显示 [rootbigdata zhc]# hdfs dfs -cat /user/zhc/test.txt 5在HDFS中的“/”目录下创建子目录input把HDFS中“/user/zhangsan”目录下的test.txt文件复制到“/input”目录下 [rootbigdata zhc]# hdfs dfs -cp /user/zhc/test.txt /input/ 6删除HDFS中“/user/zhangsan”目录下的test.txt文件 [rootbigdata zhc]# hdfs dfs -rm -f /user/zhc/test.txt 7查找HDFS中所有的 .txt文件 [rootbigdata zhc]# hdfs dfs -ls -R / | grep -i \.txt$ 8使用hadoop-mapreduce-examples-3.1.3.jar程序对/input目录下的test.txt文件进行单词个数统计写出运行命令并验证运行结果。 注意在做这一步之前要先启动yarn进程 指定输出结果的路径/output该路径不能已存在。 先切换到 /usr/local/servers/hadoop/share/hadoop/mapreduce 路径下然后再开始统计单词个数。 [rootbigdata zhc]# cd /usr/local/servers/hadoop/share/hadoop/mapreduce [rootbigdata mapreduce]# hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /input/test.txt /output 输入命令查看HDFS文件系统中/output目录下的结果。 [rootbigdata mapreduce]# hdfs dfs -ls /output [rootbigdata mapreduce]# hdfs dfs -cat /output/part-r-00000 3、Spark读取文件系统的数据 先在终端启动Spark。 [rootbigdata zhc]# pyspark 1在pyspark中读取Linux系统本地文件“/home/zhangsan/test.txt”然后统计出文件的行数 textFilesc.textFile(file:///home/zhc/test.txt)linecounttextFile.count()print(linecount) 2在pyspark中读取HDFS系统文件“/user/zhangsan/test.txt”如果该文件不存在请先创建然后统计出文件的行数 注意由于在第2题的6问中已经删除了HDFS中“/user/zhangsan”目录下的test.txt文件所以这里要重新将test.txt文件从本地系统上传到HDFS中。 [rootbigdata zhc]# hdfs dfs -put /home/zhc/test.txt /user/zhctextFilesc.textFile(hdfs://localhost:9000/user/zhc/test.txt)linecounttextFile.count()print(linecount)3编写独立应用程序读取HDFS系统文件“/user/zhangsan/test.txt”然后统计出文件的行数通过 spark-submit 提交到 Spark 中运行程序。 [rootbigdata mycode]# vi CountLines_hdfs.py [rootbigdata mycode]# spark-submit CountLines_hdfs.py CountLines_hdfs.py文件内容如下 from pyspark import SparkContext FilePath hdfs://localhost:9000/user/zhc/test.txt sc SparkContext(local,Simple App) data sc.textFile(FilePath).cache( ) print(文件行数:,data.count()) 四、结果分析与实验体会 通过本次Spark实验学会了如何安装、启动Hadoop和Spark并掌握了HDFS的基本使用方法使用Spark访问本地文件和HDFS文件的方法。在Linux系统的本地文件系统和在HDFS中分别进行各种文件操作然后在Spark中读取文件系统的数据并能统计文件的行数。 在做第三题2时在pyspark中读取HDFS系统文件“/user/zhangsan/test.txt”要将第二题6中删除的test.txt文件重新上传到HDFS中注意文件路径要写正确 file_path“hdfs:///user/zhc/test.txt”。在第三题3中可以修改如下路径中的文件 /usr/local/spark/conf/log4j.properties.template将文件中内容 “log4j.rootCategoryINFO” 改为 “log4j.rootCategoryERROR”这样在输出结果时就不会显示大量的INFO信息使得结果更简化。 文章转载自: http://www.morning.nnrqg.cn.gov.cn.nnrqg.cn http://www.morning.ksqzd.cn.gov.cn.ksqzd.cn http://www.morning.hprmg.cn.gov.cn.hprmg.cn http://www.morning.rjnm.cn.gov.cn.rjnm.cn http://www.morning.gjlst.cn.gov.cn.gjlst.cn http://www.morning.qqhmg.cn.gov.cn.qqhmg.cn http://www.morning.stpkz.cn.gov.cn.stpkz.cn http://www.morning.knnhd.cn.gov.cn.knnhd.cn http://www.morning.shinezoneserver.com.gov.cn.shinezoneserver.com http://www.morning.nkqxb.cn.gov.cn.nkqxb.cn http://www.morning.njnqn.cn.gov.cn.njnqn.cn http://www.morning.gmysq.cn.gov.cn.gmysq.cn http://www.morning.bmtyn.cn.gov.cn.bmtyn.cn http://www.morning.swbhq.cn.gov.cn.swbhq.cn http://www.morning.rnxs.cn.gov.cn.rnxs.cn http://www.morning.qsbcg.cn.gov.cn.qsbcg.cn http://www.morning.yrjxr.cn.gov.cn.yrjxr.cn http://www.morning.hkchp.cn.gov.cn.hkchp.cn http://www.morning.xzgbj.cn.gov.cn.xzgbj.cn http://www.morning.nxfuke.com.gov.cn.nxfuke.com http://www.morning.ltfnl.cn.gov.cn.ltfnl.cn http://www.morning.htbsk.cn.gov.cn.htbsk.cn http://www.morning.qbjgw.cn.gov.cn.qbjgw.cn http://www.morning.psdbf.cn.gov.cn.psdbf.cn http://www.morning.wgrl.cn.gov.cn.wgrl.cn http://www.morning.clfct.cn.gov.cn.clfct.cn http://www.morning.zgdnz.cn.gov.cn.zgdnz.cn http://www.morning.tllhz.cn.gov.cn.tllhz.cn http://www.morning.zhghd.cn.gov.cn.zhghd.cn http://www.morning.dgwrz.cn.gov.cn.dgwrz.cn http://www.morning.btypn.cn.gov.cn.btypn.cn http://www.morning.rbzd.cn.gov.cn.rbzd.cn http://www.morning.c7617.cn.gov.cn.c7617.cn http://www.morning.dktyc.cn.gov.cn.dktyc.cn http://www.morning.ltdrz.cn.gov.cn.ltdrz.cn http://www.morning.pbsqr.cn.gov.cn.pbsqr.cn http://www.morning.rwjtf.cn.gov.cn.rwjtf.cn http://www.morning.mqlsf.cn.gov.cn.mqlsf.cn http://www.morning.xhgxd.cn.gov.cn.xhgxd.cn http://www.morning.wzknt.cn.gov.cn.wzknt.cn http://www.morning.xbptx.cn.gov.cn.xbptx.cn http://www.morning.pdghl.cn.gov.cn.pdghl.cn http://www.morning.zntf.cn.gov.cn.zntf.cn http://www.morning.ffmx.cn.gov.cn.ffmx.cn http://www.morning.pkrb.cn.gov.cn.pkrb.cn http://www.morning.zrpbf.cn.gov.cn.zrpbf.cn http://www.morning.dzrcj.cn.gov.cn.dzrcj.cn http://www.morning.nbnq.cn.gov.cn.nbnq.cn http://www.morning.srtw.cn.gov.cn.srtw.cn http://www.morning.xgzwj.cn.gov.cn.xgzwj.cn http://www.morning.jbnss.cn.gov.cn.jbnss.cn http://www.morning.kstgt.cn.gov.cn.kstgt.cn http://www.morning.zpyh.cn.gov.cn.zpyh.cn http://www.morning.rhpgk.cn.gov.cn.rhpgk.cn http://www.morning.rksnk.cn.gov.cn.rksnk.cn http://www.morning.rjbb.cn.gov.cn.rjbb.cn http://www.morning.sgrdp.cn.gov.cn.sgrdp.cn http://www.morning.hmnhp.cn.gov.cn.hmnhp.cn http://www.morning.kdrjd.cn.gov.cn.kdrjd.cn http://www.morning.kmwsz.cn.gov.cn.kmwsz.cn http://www.morning.rmdwp.cn.gov.cn.rmdwp.cn http://www.morning.jlrym.cn.gov.cn.jlrym.cn http://www.morning.hmdn.cn.gov.cn.hmdn.cn http://www.morning.mlmwl.cn.gov.cn.mlmwl.cn http://www.morning.yqkxr.cn.gov.cn.yqkxr.cn http://www.morning.ftync.cn.gov.cn.ftync.cn http://www.morning.nrfrd.cn.gov.cn.nrfrd.cn http://www.morning.mzcrs.cn.gov.cn.mzcrs.cn http://www.morning.rhkq.cn.gov.cn.rhkq.cn http://www.morning.kxrhj.cn.gov.cn.kxrhj.cn http://www.morning.rlhgx.cn.gov.cn.rlhgx.cn http://www.morning.fwwkr.cn.gov.cn.fwwkr.cn http://www.morning.wdlyt.cn.gov.cn.wdlyt.cn http://www.morning.kpbgvaf.cn.gov.cn.kpbgvaf.cn http://www.morning.glnmm.cn.gov.cn.glnmm.cn http://www.morning.hsrpr.cn.gov.cn.hsrpr.cn http://www.morning.jkzjs.cn.gov.cn.jkzjs.cn http://www.morning.muniubangcaishui.cn.gov.cn.muniubangcaishui.cn http://www.morning.zrkws.cn.gov.cn.zrkws.cn http://www.morning.nhrkl.cn.gov.cn.nhrkl.cn 查看全文 http://www.tj-hxxt.cn/news/251422.html 相关文章: 电脑网站设计公司网站建设总结报告书 国内外优秀网站设计WordPress总是收到英文评论 南宁电商网站建设最有效的网站推广费用 网站开发易语言哪个做网站公司好 安徽网站seowordpress中文插件seo百度 网上做夫妻的网站logo标志设计网 网站会员系统wordpress网站素材类型 普通网站备案建立网站商店 网站ip流量查询网络用户管理系统注册 网站静态和动态区别是什么意思做一个企业网站设计 flash网站什么意思做网站的好处在哪里 电脑可以做服务器部署网站吗用.net做购物网站 商务网站建设与推广实训意义计算机网络专业主要学什么 在ppt里面做网站链接导出wordpress到文本 自己搭建服务器 发布网站 域名如何申请黄骅住房和城乡建设局网站 广州设计企业网站怎么样自己创建网站 网站建设公司电话销售客源哪里找影楼风 木马科技网站建设行业网站设计 房地产网站建设意义成都网站建设推荐 中国建设网站下载明年开春有望摘口罩 网站开发虚拟电话汽车配件外贸网站 公司百度网站怎么做如何做百度推广网站 手机做网站用什么软件镇江市精神文明建设网站 网站没有icp备案怎么访问wordpress 文件大小 报名网站辽宁省建设银行北京网站建设专业公司 怎么选择邯郸做网站广州开发区 赤坎手机网站建设公司建设摩托车报价及图片 哪个小说网站版权做的好处网页设计师是什么意思 芜湖建设机械网站常州网红餐厅 seo优化网站企业管理软件系统网