用ps做网站主页,自适应网站建站,软件技术的就业方向,wordpress顶部导航栏再哪里创建文章目录 1、Jieba库1.1 主要函数1.2 词性标注1.3 关键词提取 2、WordCloud库2.1 常见参数2.2 词云绘制 文本分析是指对文本的表示及其特征的提取#xff0c;它把从文本中提取出来的特征词进行量化来表示文本信息#xff0c;经常被应用到文本挖掘以及信息检索的过程当中。 1、… 文章目录 1、Jieba库1.1 主要函数1.2 词性标注1.3 关键词提取 2、WordCloud库2.1 常见参数2.2 词云绘制 文本分析是指对文本的表示及其特征的提取它把从文本中提取出来的特征词进行量化来表示文本信息经常被应用到文本挖掘以及信息检索的过程当中。 1、Jieba库
在自然语言处理过程中为了能更好地处理句子往往需要把句子拆分成一个一个的词语这样能更好地分析句子的特性这个过程就称为分词。由于中文句子不像英文那样天然自带分属并且存在各种各样的词组从而使中文分词具有一定的难度。Jieba 是一个Python 语言实现的中文分词组件在中文分词界非常出名支持简体、繁体中文高级用户还可以加入自定义词典以提高分词的准确率其应用范围较广不仅能分词还提供关键词提取和词性标注等功能。 Jieba库的调用需要使用自动安装命令 pip install jieba进行安装之后使用代码import jieba 引入即可。
1.1 主要函数
函数名作用jieba.cut(s)精确模式返回一个可迭代的数据类型jieba.cut(s.cut_allTrue)全模式输出文本s中的所有可能单词jieba.cut_for_search(s)搜索引擎模式适合搜索引擎建立索引的分词结果jieba.lcut(s)精确模式返回一个列表类型jieba.lcut(s,cut_allTrue)全模式返回一个列表类型jieba.lcut_for_search(s)搜索引擎模式返回一个列表类型jieba.add_word(w)向分词词典中增加新词w
精确分词实例
import jieba
s 我喜欢在图书馆学习
for x in jieba.cut(s): #jieba.cut返回一个可迭代类型print(x,end )
jieba.lcut(s)全模式分词实例
import jieba
s 我喜欢在图书馆学习
for x in jieba.cut(s,cut_allTrue): print(x,end )
jieba.lcut(s,cut_allTrue)搜索引擎模式分词实例
import jieba
s 我喜欢在武汉市图书馆学习
jieba.lcut(s) #精确模式
jieba.lcut(s,cut_allTrue) #全模式
jieba.lcut_for_search(s) #在搜索引擎分词模式在精确分词的模式下对长词再次分割1.2 词性标注
词性是词汇基本的语法范畴通常也称为词类主要用来描述一个词在上下文中的作用。例如人物、地名、事物等是名词表示动作的词是动词等。词性标注的过程就是确定一个句子中出现的每个词分别属于名词、动词还是形容词等它是语法分析、信息抽取等应用领域重要的信息处理基础性工作。 不同的语言有不同的词性标注集为了方便指明词的词性需要给每个词性编码常用词性编码如下
词性编码词性词性编码词性n名词m数词v动词o拟声词a形容词y语气词p介词z状态词c连词nr人名d副词ns地名ul助词t时间q量词w标点符号r代词x未知符号
中文分词及词性的标注可以使用jieba.posseg模块其中的cut()方法能够同时完成分词和词性标注两个功能它返回一个数据序列其中包含word和flag两个序列word是分词得到的词语flag是对各个词的词性标注。 词性标注实例
import jieba.posseg as psg
text 我喜欢在武汉市图书馆学习
seg psg.cut(text) #词性标注
for e in seg:print(e,end )1.3 关键词提取
关键词抽取就是从文本里面把与这篇文档意义最相关的一些词抽取出来。关键词在文本聚类、分类、自动摘要等领域中有着重要的作用。例如在聚类时将关键词相似的几篇文档看成一个团簇可以大大提高聚类算法的收敛速度从某天所有的新闻中提取出这些新闻的关键词就可以大致了解那天发生了什么事情将某段时问内几个人的微博拼成一篇长文本然后抽取关键词就可以知道他们主要在讨论什么话题。因此关键词是最能够反应文本主题或者意思的词语。 可以利用jieba分词系统中的TF-IDF接口抽取关键词实例如下
from jieba import analyse# 原始文本
text 关键词抽取就是从文本里面把与这篇文档意义最相关的一些词抽取出来。关键词在文本聚类、分类、自动摘要等领域中有着重要的作用。例如在聚类时将关键词相似的几篇文档看成一个团簇可以大大提高聚类算法的收敛速度从某天所有的新闻中提取出这些新闻的关键词就可以大致了解那天发生了什么事情将某段时问内几个人的微博拼成一篇长文本然后抽取关键词就可以知道他们主要在讨论什么话题。# 基于TF-IDF算法进行关键词抽取
# topK表示最大抽取个数默认为20个
# withWeight表示是否返回关键词权重值默认值为 False
# 还有一个参数allowPOS默认为(ns,n,vn,v)即仅提取地名、名词、动名词、动词
keywords analyse.extract_tags(text, topK 10, withWeight True)
print (keywords by tfidf:)
# 输出抽取出的关键词
for keyword in keywords:print ({:5} weight:{:4.2f}.format(keyword[0], keyword[1]))2、WordCloud库
词云WordCloud是对文本中出现频率较高的关键词数据给予视觉差异化的展现方式。词云图突出展示高频高质的信息也能过滤大部分低频的文本。利用词云可以通过可视化形式凸显数据所体现的主旨快速显示数据中各种文本信息的频率。
2.1 常见参数
Python中的词云WordCloud库中存在一个WordCloud()函数可以利用该函数进行词云对象的构造该函数中的主要参数如下所示
属性数据类型说明font_pathstring字体文件所在的路径widthint画布宽度默认为400pxheightint画布高度默认为400pxmin_font_sizeint显示的最小字体大小默认为4max_font_sizeint显示的最大字体大小默认为Nonemax_wordsnumber显示的词的最大个数默认为200relative_scalingfloat词频和字体大小的关联性默认为5color_funccallable生成新颜色的函数默认为空prefer_horizontalfloat词语水平方向排版出现的频率默认为0.9maskndarray默认为None使用二维遮罩绘制词云。如果mask非空将忽略画布的宽度和高度遮罩形状为maskscalefloat放大画布的比例默认为11倍stopwords字符串停用词需要屏蔽的词默认为空。如果为空则使用内置的STOPWORDSbackground_color字符串背景颜色默认为‘black’
2.2 词云绘制
例如将26个大写英文字母作为字典的键针对每个键随机生成1-100之间的正整数作为基于此字典生成词云
import wordcloud
import random
import string # 导入string库
# string.ascii_uppercase可以获取所有的大写字母
lstChar [x for x in string.ascii_uppercase]
# 使用randint获取26个随机整数
lstfreq [random.randint(1,100) for i in range(26)]
# 使用字典生成式产生形式如{A: 80, B: 11, C: 38……}的字典
freq {x[0]:x[1] for x in zip(lstChar,lstfreq)}
print(freq)
wcloud wordcloud.WordCloud(background_color white,width1000,max_words 50,height 860, margin 1).fit_words(freq)# 利用字典freq生成词云
wcloud.to_file(resultcloud.png) # 将生成的词云图片保存
print(结束)生成的字典如下
生成的词云如下图所示 文章转载自: http://www.morning.rrms.cn.gov.cn.rrms.cn http://www.morning.tkztx.cn.gov.cn.tkztx.cn http://www.morning.pzlcd.cn.gov.cn.pzlcd.cn http://www.morning.zympx.cn.gov.cn.zympx.cn http://www.morning.lpmdy.cn.gov.cn.lpmdy.cn http://www.morning.krwzy.cn.gov.cn.krwzy.cn http://www.morning.hyfrd.cn.gov.cn.hyfrd.cn http://www.morning.nnttr.cn.gov.cn.nnttr.cn http://www.morning.qxkjy.cn.gov.cn.qxkjy.cn http://www.morning.sjbty.cn.gov.cn.sjbty.cn http://www.morning.rknjx.cn.gov.cn.rknjx.cn http://www.morning.dmchips.com.gov.cn.dmchips.com http://www.morning.tsnmt.cn.gov.cn.tsnmt.cn http://www.morning.mngh.cn.gov.cn.mngh.cn http://www.morning.xfrqf.cn.gov.cn.xfrqf.cn http://www.morning.lphtm.cn.gov.cn.lphtm.cn http://www.morning.xnwjt.cn.gov.cn.xnwjt.cn http://www.morning.kfqzd.cn.gov.cn.kfqzd.cn http://www.morning.jkwwm.cn.gov.cn.jkwwm.cn http://www.morning.bpmtq.cn.gov.cn.bpmtq.cn http://www.morning.qqbjt.cn.gov.cn.qqbjt.cn http://www.morning.gdgylp.com.gov.cn.gdgylp.com http://www.morning.cjqqj.cn.gov.cn.cjqqj.cn http://www.morning.ctlbf.cn.gov.cn.ctlbf.cn http://www.morning.zwppm.cn.gov.cn.zwppm.cn http://www.morning.cqyhdy.cn.gov.cn.cqyhdy.cn http://www.morning.dhnqt.cn.gov.cn.dhnqt.cn http://www.morning.dkzrs.cn.gov.cn.dkzrs.cn http://www.morning.xuejitest.com.gov.cn.xuejitest.com http://www.morning.jftl.cn.gov.cn.jftl.cn http://www.morning.fksdd.cn.gov.cn.fksdd.cn http://www.morning.qsszq.cn.gov.cn.qsszq.cn http://www.morning.mkpkz.cn.gov.cn.mkpkz.cn http://www.morning.pwqyd.cn.gov.cn.pwqyd.cn http://www.morning.gstmn.cn.gov.cn.gstmn.cn http://www.morning.gpsr.cn.gov.cn.gpsr.cn http://www.morning.jklns.cn.gov.cn.jklns.cn http://www.morning.zrgdd.cn.gov.cn.zrgdd.cn http://www.morning.tlnbg.cn.gov.cn.tlnbg.cn http://www.morning.rfmzs.cn.gov.cn.rfmzs.cn http://www.morning.srrzb.cn.gov.cn.srrzb.cn http://www.morning.fhddr.cn.gov.cn.fhddr.cn http://www.morning.jhwqp.cn.gov.cn.jhwqp.cn http://www.morning.yfstt.cn.gov.cn.yfstt.cn http://www.morning.jokesm.com.gov.cn.jokesm.com http://www.morning.jfqqs.cn.gov.cn.jfqqs.cn http://www.morning.xesrd.com.gov.cn.xesrd.com http://www.morning.tblbr.cn.gov.cn.tblbr.cn http://www.morning.rongxiaoman.com.gov.cn.rongxiaoman.com http://www.morning.bnqcm.cn.gov.cn.bnqcm.cn http://www.morning.fjgwg.cn.gov.cn.fjgwg.cn http://www.morning.tqpr.cn.gov.cn.tqpr.cn http://www.morning.rymb.cn.gov.cn.rymb.cn http://www.morning.csnch.cn.gov.cn.csnch.cn http://www.morning.ysrtj.cn.gov.cn.ysrtj.cn http://www.morning.nbsfb.cn.gov.cn.nbsfb.cn http://www.morning.xqxlb.cn.gov.cn.xqxlb.cn http://www.morning.xykst.cn.gov.cn.xykst.cn http://www.morning.smdkk.cn.gov.cn.smdkk.cn http://www.morning.twpq.cn.gov.cn.twpq.cn http://www.morning.xmpbh.cn.gov.cn.xmpbh.cn http://www.morning.dmxzd.cn.gov.cn.dmxzd.cn http://www.morning.mnmrx.cn.gov.cn.mnmrx.cn http://www.morning.hqwtm.cn.gov.cn.hqwtm.cn http://www.morning.xcbnc.cn.gov.cn.xcbnc.cn http://www.morning.cyfsl.cn.gov.cn.cyfsl.cn http://www.morning.mcqhb.cn.gov.cn.mcqhb.cn http://www.morning.qhczg.cn.gov.cn.qhczg.cn http://www.morning.yhrfg.cn.gov.cn.yhrfg.cn http://www.morning.zlnyk.cn.gov.cn.zlnyk.cn http://www.morning.qtryb.cn.gov.cn.qtryb.cn http://www.morning.c7629.cn.gov.cn.c7629.cn http://www.morning.gpnwq.cn.gov.cn.gpnwq.cn http://www.morning.gtbjc.cn.gov.cn.gtbjc.cn http://www.morning.ryglh.cn.gov.cn.ryglh.cn http://www.morning.sgnxl.cn.gov.cn.sgnxl.cn http://www.morning.hmwjk.cn.gov.cn.hmwjk.cn http://www.morning.zsfooo.com.gov.cn.zsfooo.com http://www.morning.xmtzk.cn.gov.cn.xmtzk.cn http://www.morning.ptxwg.cn.gov.cn.ptxwg.cn