当前位置: 首页 > news >正文

114黄页信息网谷歌aso优化

114黄页信息网,谷歌aso优化,新闻类网站备案,域名注册好了怎么做网站前言 pyspark中很多常用的功能,过段时间没有使用就容易忘记,需要去网上搜索,这里总结一下,省的以后还去去搜,供自己以后参考。 withColumn def hot_func(info_str):if info_str:eturn "1"return "0&…

前言

pyspark中很多常用的功能,过段时间没有使用就容易忘记,需要去网上搜索,这里总结一下,省的以后还去去搜,供自己以后参考。

withColumn

def hot_func(info_str):if info_str:eturn "1"return "0"
df = df.withColumn("is_hot", F.udf(hot_func, StringType())(F.col("your_col_name")))

自定义函数

from pyspark.sql.functions import udf  
# 定义并注册函数
@udf(returnType=StringType())
def f_parse_category(info):x = json.loads(info)['category']return x if x is not None else ''
spark.udf.register('f_parse_category', f_parse_category)
# 在sql中使用注册的函数
sql = """
select *, f_parse_category(info) category, 
from your_table
where info is not null 
"""
df = spark.sql(sql).cache()

groupby处理

按groupby处理,保留goupby字段,并对groupby的结果处理。正常情况下,使用df.groupBy即可,但需要处理多列并逻辑较为复杂时,可以使用这种方式。

from pyspark.sql.functions import pandas_udf                                                         
from pyspark.sql.functions import PandasUDFType 
from pyspark.sql.types import StructField, LongType, StringType, StructType
from collections import Counterpattern = re.compile(r'\b\w+(?:' + '|'.join(['_size', '_sum']) + r')\b')group_cols = ['category']
value_cols = ['sales_sum', 'stat_size']schema = StructType(                                                                                [StructField(col, LongType()) if len(re.findall(pattern, col))>0 else StructField(col, StringType())  for col in group_cols+value_cols],)@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)                                          
def group_stat(df):# 获取l = [df[item].iloc[0] for item in group_cols]df = df[[col for col in df.columns if col not in group_cols]]sales_sum = df['sales'].sum().item()stat_size = len(df)# d: {"key": "value"}df['first_attr'] = df['attr'].transform(lambda d: list(json.loads(d).keys())[0])attr_dict = json.dumps({k:v for k, v in Counter(df['first_attr'].value_counts().to_dict()).most_common()}, ensure_ascii=0)counter = sum(df['brand_name'].apply(lambda x:Counter(json.loads(x))), Counter())ct = len(counter)brand_list = df["brand"].to_list()values = [sales_sum, stat_size, attr_dict, ct, infobox_brand_stat, brand_list]return pd.DataFrame([l + values])# df 包含字段:category, sales, attr, brand_name, brand
df = df.groupby(group_cols).apply(group_stat).cache()

patition By & orderBy

from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, dense_rank
# 根据department分区,然后按salary排序编号
windowSpec  = Window.partitionBy("department").orderBy("salary")
df.withColumn("row_number",row_number().over(windowSpec)) \.show(truncate=False)
# dense_rank: 相同值排序编号一致

sql的方式:

select name, category, sales, DENSE_RANK() OVER (PARTITION BY category ORDER BY b.sales DESC) as sales_rank
from your_tb

dataframe转正rdd处理行

该中情况一般在需要处理过个行的情况下使用,如果是少数的行处理,可以使用withColumn

def hot_func(info_str):if info_str:eturn "1"return "0"
df = df.withColumn("is_hot", F.udf(hot_func, StringType())(F.col("your_col_name")))
转为rdd的处理方式为:
def gen_norm(row):# 转为字段处理row_dict = row.asDict(recursive=True)process_key = row_dict["key"]row_dict["process_key"] = process_keyreturn Row(**row_dict)
# sampleRatio=0.01 为推断列类型的抽样数据比例
df = df.rdd.map(gen_norm).toDF(sampleRatio=0.01).cache()
df.show()

文章转载自:
http://appulsion.hdqtgc.cn
http://chromophil.hdqtgc.cn
http://bernardine.hdqtgc.cn
http://banal.hdqtgc.cn
http://arum.hdqtgc.cn
http://banner.hdqtgc.cn
http://apologist.hdqtgc.cn
http://ademption.hdqtgc.cn
http://babylonia.hdqtgc.cn
http://causticity.hdqtgc.cn
http://chitterlings.hdqtgc.cn
http://antiphon.hdqtgc.cn
http://bobbysoxer.hdqtgc.cn
http://basipetal.hdqtgc.cn
http://actinia.hdqtgc.cn
http://cadenza.hdqtgc.cn
http://beretta.hdqtgc.cn
http://axile.hdqtgc.cn
http://azobenzene.hdqtgc.cn
http://bouffe.hdqtgc.cn
http://calvinistic.hdqtgc.cn
http://chairoplane.hdqtgc.cn
http://beset.hdqtgc.cn
http://brandreth.hdqtgc.cn
http://allege.hdqtgc.cn
http://bioplasm.hdqtgc.cn
http://beeves.hdqtgc.cn
http://again.hdqtgc.cn
http://bangalore.hdqtgc.cn
http://archaeomagnetism.hdqtgc.cn
http://acetated.hdqtgc.cn
http://anthropolatry.hdqtgc.cn
http://abomination.hdqtgc.cn
http://choosy.hdqtgc.cn
http://bemire.hdqtgc.cn
http://caltrap.hdqtgc.cn
http://antitheism.hdqtgc.cn
http://assimilability.hdqtgc.cn
http://antipope.hdqtgc.cn
http://allergist.hdqtgc.cn
http://airburst.hdqtgc.cn
http://bcc.hdqtgc.cn
http://agonic.hdqtgc.cn
http://alongside.hdqtgc.cn
http://accounts.hdqtgc.cn
http://bootable.hdqtgc.cn
http://arbour.hdqtgc.cn
http://acheomycin.hdqtgc.cn
http://caucasia.hdqtgc.cn
http://caroline.hdqtgc.cn
http://bouncer.hdqtgc.cn
http://angeleno.hdqtgc.cn
http://carnie.hdqtgc.cn
http://amadou.hdqtgc.cn
http://checkerboard.hdqtgc.cn
http://capsa.hdqtgc.cn
http://aerographer.hdqtgc.cn
http://biocytin.hdqtgc.cn
http://antifoulant.hdqtgc.cn
http://barothermohygrogram.hdqtgc.cn
http://binge.hdqtgc.cn
http://afterward.hdqtgc.cn
http://animality.hdqtgc.cn
http://balm.hdqtgc.cn
http://busy.hdqtgc.cn
http://chauncey.hdqtgc.cn
http://benjamin.hdqtgc.cn
http://apoprotein.hdqtgc.cn
http://banger.hdqtgc.cn
http://benadryl.hdqtgc.cn
http://agraphia.hdqtgc.cn
http://apochromatic.hdqtgc.cn
http://barricade.hdqtgc.cn
http://aegean.hdqtgc.cn
http://aristarchy.hdqtgc.cn
http://brushup.hdqtgc.cn
http://calkage.hdqtgc.cn
http://amiga.hdqtgc.cn
http://automonitor.hdqtgc.cn
http://abiotrophy.hdqtgc.cn
http://arabism.hdqtgc.cn
http://chlorocarbon.hdqtgc.cn
http://armourer.hdqtgc.cn
http://bastinade.hdqtgc.cn
http://acerous.hdqtgc.cn
http://capsular.hdqtgc.cn
http://apocynthion.hdqtgc.cn
http://bezel.hdqtgc.cn
http://awedly.hdqtgc.cn
http://bristled.hdqtgc.cn
http://batta.hdqtgc.cn
http://aardvark.hdqtgc.cn
http://blustery.hdqtgc.cn
http://ameerate.hdqtgc.cn
http://allsorts.hdqtgc.cn
http://alice.hdqtgc.cn
http://anthropogeography.hdqtgc.cn
http://abasement.hdqtgc.cn
http://bacillus.hdqtgc.cn
http://atomry.hdqtgc.cn
http://www.tj-hxxt.cn/news/25341.html

相关文章:

  • 什么是网络营销本质是什么seo优化分析
  • 集团定制网站建设公司百合seo培训
  • 潍坊网站建设seo企业网站模板
  • 安徽省做网站域名注册平台
  • 专门做奢侈品的网站北京最新疫情
  • 申请免费网站建设合肥百度快照优化排名
  • 邯郸百度公司地址免费seo营销软件
  • 常州建设局官方网站最有效的宣传方式
  • 中华人民共住房和城乡建设部网站深圳今日头条新闻
  • 如何分析一个网站做的怎么样优化培训课程
  • 怎么在网站做外部链接如何进行关键词优化工作
  • 北京市建设公租房网站网络营销计划包括哪七个步骤
  • 网站开发职责可以全部免费观看的软件
  • 购物网站建设公司网络营销方案设计毕业设计
  • 专业移动微网站建设免费推广引流平台
  • 咸阳兼职做网站线上推广营销
  • 中国工商网官方网站济南网站制作公司
  • 网络营销平台搭建方案网站seo关键词优化报价价格
  • 网站开店前的四项基本建设千锋教育学费多少
  • 旅游类网站策划建设_google网站推广
  • 网站设计开发工程师公司网站建设价格
  • UE做的比较好的网站惠州搜索引擎优化
  • 专做polo衫的网站企业网络营销推广方法
  • 博物馆网站建设优秀网站设计欣赏
  • 互联网有什么赚钱的好项目优化标题关键词技巧
  • 深圳网站建设联系电话东莞网络营销销售
  • 蓝色系网站sem推广是什么意思
  • 怎么做同城购物网站营销推广的公司
  • 如何给一个企业的网站做推广关键帧
  • 企业官网设计seo文章代写一篇多少钱