当前位置: 首页 > news >正文

上海远程教育网站设计与开发公司网络整合营销案例

上海远程教育网站设计与开发公司,网络整合营销案例,wordpress的母版页,企业营销策划 网站建设1. 概念: RDD: 弹性分布式数据集; DataFrame: DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型…

1. 概念:

RDD:

弹性分布式数据集;

DataFrame:

DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这样的数据集可以用SQL查询。DataFrame是不可变的,即一旦创建,就不能修改其内容。

DataFrame 是 DataSet[Row]

DataSet:

简单的说,DataSet和DataFrame的区别就是,DataSet会在编译阶段就进行类型检查 ,而DataFrame在运行阶段才会类型检查。

Dataset是一个强类型的特定领域的对象,Dataset也被称为DataFrame的类型化视图,这种DataFrame是Row类型的Dataset,即Dataset[Row]。Dataset结合了DataFrame的优化和RDD的类型安全。Dataset提供了编译时类型检查(而DataFrame不会,DataFrame只会在运行阶段才会检查类型),确保数据在编译阶段就符合预期的类型。

dataset是dataFrame的升级版对象,dataframe是一个传统的sql编程对象,如果要想使用dataframe进行灵活开发的比较复杂。

dataset和dataFrame是一个类别的对象,都是可以进行sql查询数据的,并且可以支持rdd上面的方法。

当我们需要对一个表对象进行二次处理的话建议大家转换为dataset而不是dataframe。

package com.hainiu.sparkimport org.apache.spark.sql.{Dataset, SparkSession}object TestDSAndDF {def main(args: Array[String]): Unit = {val session = SparkSession.builder().master("local[*]").appName("test").getOrCreate()import session.implicits._val ds: Dataset[String] = session.read.textFile("file:///headless/workspace/spark/data/a.txt")ds.map(t=>{val strs = t.split(" ")(strs(0), strs(1), strs(2), strs(3))})//    val df = session.read.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2")
//      .load("file:///headless/workspace/spark/data/a.txt")
//    
//    val ds: Dataset[(String, String, String, String)] = df.map(row => {
//      val line = row.getAs[String]("value")
//      val strs = line.split(" ")
//      (strs(0), strs(1), strs(2), strs(3))
//    })}
}

2. 三者之间的转换

  val ds: Dataset[String] = session.read.textFile("file:///headless/workspace/spark/data/a.txt")ds.map(t=>{val strs = t.split(" ")(strs(0), strs(1), strs(2), strs(3))})val df1 = ds.toDF("id","name","age","gender")val df: Dataset[Row] = session.read.format("org.apache.spark.sql.execution.datasources.v2.text.TextDataSourceV2").load("file:///headless/workspace/spark/data/a.txt")val rdd = session.sparkContext.textFile("file:///headless/workspace/spark/data/a.txt")rdd.toDS()rdd.toDF()df.rddds.rdd

http://www.tj-hxxt.cn/news/77282.html

相关文章:

  • 餐饮网站做的比较好的是哪个免费发布推广的网站有哪些
  • tornado网站开发推广方案流程
  • 做网站的人 优帮云bt种子搜索神器
  • 漯河知名网站建设价格广告公司网站制作
  • h5网站制作视频东莞做网站哪里好
  • 制作网站作品凡科网建站系统源码
  • 东莞做网站最好有哪些公司商品seo关键词优化
  • 白云区建网站公司河南郑州网站推广优化外包
  • 国内免费顶级域名网站江苏网站开发
  • 网站 防采集b2b外贸平台
  • 网站的制作方法如何做推广和引流
  • web前端期末考试网页制作seo快速优化技术
  • 医院网站建设方案ppt地推的60种方法
  • 网站制作费一般多少谷歌广告联盟一个月能赚多少
  • o2o网站建设价格怎么建造自己的网站
  • 网站提交订单付款才跳转怎么做网络流量分析工具
  • 网站建设 教程网络营销的优势是什么
  • 东莞seo站内优化色盲眼中的世界
  • 网站建设制作好评语种子搜索在线 引擎
  • 彩票站自己做网站吗登封网站关键词优化软件
  • 长沙网站制作公司有哪些企业seo如何优化
  • 黄页网站大全在线看免费国外浏览器搜索引擎入口
  • 网站首页html代码的推广普通话奋进新征程演讲稿
  • 学院招生网站建设方案谷歌浏览器下载电脑版
  • 庆阳做网站公司软文推广营销平台
  • 网站型与商城型有什么区别吗佛山网站快速排名提升
  • 外包建网站多少钱智能识别图片
  • 商务网站建设实训报告搜索引擎优化网站排名
  • 建设免费网站模板成都seo学徒
  • 做兼职的那个网站靠谱太原百度网站快速优化