当前位置: 首页 > news >正文

手机创新网站百度服务电话

手机创新网站,百度服务电话,成都疫情最新新增,郑州网站建设的公司spark读取普通文件 txt文件 """ 将一行数据当做一个字段,需要自己切割 字段名称为value 表结构 可以从sql中搞 """ df spark.read.text("../../data/wordcount/input/data.txt") df spark.read.format("text"…

spark读取普通文件

txt文件

"""
将一行数据当做一个字段,需要自己切割 字段名称为value
表结构 可以从sql中搞
"""
df = spark.read.text("../../data/wordcount/input/data.txt")
df = spark.read.format("text").load("hdfs://shucang:9820/behavior/ads/ads_visit_type")df.createOrReplaceTempView("wordcount")

json文件

"""
读取json文件
直接就有表结构了
"""df1 = spark.read.format("json").load("../../resources/person.json").show()
df2 = spark.read.json("../../resources/person.json").show()

csv文件(固定分割符的文件)

"""
,分割符的文件 且含有表头
自动获取结构
"""
df = spark.read.format("csv").option("header",True).load("../../resources/homework1/3.txt")
"""
,分割符的文件 没有表头
获取结构的方式
"""
spark.read.csv("../../resources/homework1/3.txt")"""
:: 分隔符的文件
"""
df = spark.read.format("csv").option("sep","::").load("../../resources/input/movies.dat")
总结:
spark.read.format("json").load(path)
spark.read.format("csv").load(path)
spark.read.format("parquet").load(path)spark.read.json(path)
spark.read.csv(path)
spark.read.parquet(path)这都是一样的

创建表结构的方式

"""
按照"," 自动分割 列名为 _c0 _c1 _c2 
"""# 修改列名# 方式一:withColumnRenamed
df = spark.read.csv("../../resources/homework1/3.txt").withColumnRenamed("_c0","id") .withColumnRenamed("_c1","username").show()# 方式二:toDF("","") 和将RDD转为DF有区别 不加[]
df = spark.read.csv("../../resources/homework1/3.txt").toDF("id","username","math","computer","english")# 方式三:toDF的变种tupleA = ("id","username","math","computer","english")
df = spark.read.csv("../../resources/homework1/3.txt").toDF(*tupleA)# 方式四:这种和 rdd转为df的情况比较相似user_schema = StructType([StructField(name="emp_id", dataType=StringType(), nullable=False),StructField(name="emp_name", dataType=StringType(), nullable=True),StructField(name="salary", dataType=DoubleType(), nullable=True),StructField(name="comm", dataType=DoubleType(), nullable=True),StructField(name="dept_id", dataType=LongType(), nullable=True)])# 使用csv 读取了一个 \t 为分隔符的文件,读取的数据字段名很随意,所以可以自定义
df = spark.read.format("csv").option("sep","\t").load("../../datas/emp.tsv",schema=user_schema)# 创建一个表
df.createOrReplaceTempView("t_name")

http://www.tj-hxxt.cn/news/15810.html

相关文章:

  • 深圳网络专科网站建设百度seo工具
  • 调兵山网站建设域名查询站长之家
  • 合肥瑶海区网站建设价格建网站需要多少钱和什么条件
  • 做网站c 和java那个好windows优化大师下载安装
  • 淘宝做网站seo搜索引擎推广什么意思
  • 西安优化网站公司自助建站系统代理
  • 网站备案需要几天哪有网页设计公司
  • 天津建设工程信息网密码网络优化培训骗局
  • 有哪些免费做外贸网站百度网址安全中心
  • 阿拉尔市建设局网站怎么样做seo
  • 销售型网站如何做推广seo对网站优化
  • 网站开发的图片模板建站和开发网站区别
  • eclipse怎么做网站网站分析案例
  • html5 图片展示网站怎么在百度上推广自己的产品
  • 南昌网站开发技术湖南百度推广代理商
  • logo免费生成网站百度查关键词显示排名
  • 用app怎么样建网站淘宝代运营1个月多少钱
  • 中国e网网站建设bt磁力
  • 怎么做卖衣服网站nba最新排名东西部
  • 分享型wordpress淘宝客主题优化大师windows
  • 阿里云建站流程seo网络优化前景怎么样
  • 在哪建网站360免费建站网页链接
  • 厦门建站价格网站推广属于哪些
  • wordpress 归档 如何使用广州推动优化防控措施落地
  • 建设一个网站需要多长时间seo排名第一的企业
  • 国内单页面网站网址导航怎样推广
  • 网站要挂工商标识怎么做搜索网站大全排名
  • 电商网站上信息资源的特点包括站长工具如何使用
  • 淘宝里网站建设公司可以吗龙岗网站建设
  • 东莞附近公司做网站建设多少钱央视新闻最新消息今天