当前位置: 首页 > news >正文

如何做网站性能优化深圳建网站技术

如何做网站性能优化,深圳建网站技术,网站开发 建设叫什么,wordpress引用php文件本文旨在全面介绍jieba分词器的功能与应用#xff0c;从分词器的基本情况入手#xff0c;逐步解析全模式与精确模式的不同应用场景。文章进一步指导读者如何通过添加自定义词典优化分词效果#xff0c;以及如何利用jieba分词器进行关键词抽取和词性标注#xff0c;为后续的…  本文旨在全面介绍jieba分词器的功能与应用从分词器的基本情况入手逐步解析全模式与精确模式的不同应用场景。文章进一步指导读者如何通过添加自定义词典优化分词效果以及如何利用jieba分词器进行关键词抽取和词性标注为后续的文本分析打下坚实基础。以十九大报告为例我们将展示如何将分析结果以词云图的形式直观展现使读者能够更加深入理解和掌握文本分析的实际操作进而提升处理中文文本数据的能力。此博客适合NLP初学者及对文本分析感兴趣的专业人士。 目录 一、jieba分词器介绍 二、 jieba分词器的全模式和精确模式 三、jieba分词器添加自定义词典 四、 jieba分词器实现关键词抽取 五、jieba分词器进行词性标注 六、文本分析之词云图展示------以十九大报告为例 一、jieba分词器介绍 结巴分词器全称为jieba分词器是一个广泛应用于中文自然语言处理的开源库由Python语言编写。它主要功能是将连续的中文文本切分成单个词语也就是进行中文词语的词法分析。jieba分词器采用了基于词频统计和HMM隐马尔可夫模型的混合算法能够处理大量的中文文本支持用户自定义词典对于网络语言、口语、外来词等有较好的处理能力。它提供了多种分词模式如精确模式、全模式和搜索引擎模式以适应不同的应用场景需求。 二、 jieba分词器的全模式和精确模式 下方代码演示了使用jieba分词库对中文文本进行分词的两种主要模式全模式和精确模式。首先通过全模式cut_allTrue对句子‘我来到北京清华大学’进行分词该模式会尽可能地切分出所有可能的词汇全模式会生成较多的分词结果包括一些较短的词汇。接着使用精确模式cut_allFalse该模式会尝试将句子最精确地切开这时的分词更加符合实际的词语使用习惯。最后对于句子‘他来到了网易杭研大厦’默认使用精确模式进行分词得到的结果为‘他/ 来到/ 了/ 网易/ 杭研/ 大厦’这一结果同样体现了精确模式在中文分词中的有效性。 import jiebaseg_list jieba.cut(我来到北京清华大学, cut_allTrue) print(全模式: / .join(seg_list)) # 全模式seg_list jieba.cut(我来到北京清华大学, cut_allFalse) print(精确模式: / .join(seg_list)) # 精确模式seg_list jieba.cut(他来到了网易杭研大厦) # 默认是精确模式 print(, .join(seg_list)) 三、jieba分词器添加自定义词典 在自然语言处理领域分词是基础且关键的一步。为了确保分词的准确性和适应性jieba分词器不仅提供了内置的词典还允许用户添加自定义词典以适应特定的分词需求。自定义词典的用途包括提高分词准确性、增强模型适应性、处理专业术语等。例如在金融领域有许多专业术语和名称无法被默认词典所覆盖此时添加自定义词典可以提高分词的准确率。在文本分析和挖掘中通过简单的文本文件或数据库等形式来构建自定义词典并将其导入到jieba分词器中可以让分词器更好地理解和处理特定的文本内容从而帮助用户更好地识别和处理实体、事件和情感等语言实体。  text 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等 # 全模式 seg_list jieba.cut(text, cut_allTrue) print(u[全模式]: , / .join(seg_list)) # 精确模式 seg_list jieba.cut(text, cut_allFalse) print(u[精确模式]: , / .join(seg_list)) 在处理句子“故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等”时jieba分词器未能将“乾清宫”和“黄琉璃瓦”识别为独立的整体。鉴于这两个词汇实际上应被视作单独的实体我们考虑通过引入自定义词典来改进分词结果确保这些专有名词能够被正确分辨和处理。  jieba.load_userdict(./data/mydict.txt) #需UTF-8可以在另存为里面设置 #这是用户自定义的一个词典#也可以用jieba.add_word(乾清宫) text 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等 # 全模式 seg_list jieba.cut(text, cut_allTrue) print(u[全模式]: , / .join(seg_list)) # 精确模式 seg_list jieba.cut(text, cut_allFalse) print(u[精确模式]: , / .join(seg_list)) 为解决jieba分词器在处理“乾清宫”和“黄琉璃瓦”时的问题创建了一个包含这两个词汇的自定义词典txt格式。通过将此词典导入jieba分词器同时对句子“故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等”进行全模式和精确模式下的分词结果显示“乾清宫”和“黄琉璃瓦”被成功识别为独立的实体。这一改进显著提升了分词的准确性确保了专有名词的恰当识别。 创建的自定义字典是一个txt格式如下主要要将其保存为utf-8格式。 四、 jieba分词器实现关键词抽取 下方代码通过使用jieba库的分词功能jieba.cut将文本分解成如故宫、著名景点、乾清宫等有意义的词语分词结果。然后运用关键词提取技术jieba.analyse.extract_tags选取了文本中最具代表性的五个词关键词这些关键词有助于读者快速理解文本的主题和关键内容。结果显示前五个关键词中分为是”著名景点”、”乾清宫”、”黄琉璃瓦”、”太和殿”、”故宫”。同时输出了这五个关键词在文本中的重要程度。 权重的定义权重在这里指的是每个关键词在文本中的TF-IDF值即词频-逆文档频率。这是一种统计方法用以评估一个词语对于一个文件集或一个语料库中的一个文件的重要程度。权重的计算TF-IDF值由两部分组成。第一部分是词频TF即词语在文本中出现的次数第二部分是逆文档频率IDF这部分衡量的是词语的罕见程度即如果一个词语在许多文档中都出现则其IDF值会较低。这两部分的乘积形成了最终的权重值。权重的应用通过这种方式计算得出的权重有助于我们了解每个关键词在文本中的重要性。权重越高表明该词在文本中越重要这可以用于文本摘要、信息检索等多种NLP任务。 权重的应用场景关键词提取的结果可以用在很多场景比如自动摘要、搜索引擎优化、舆情分析等。在这些应用中准确地了解关键词的重要性是非常关键的一点。权重的优劣势虽然TF-IDF是一种有效的关键词权重计算方法但它也有局限性比如无法捕捉词语之间的语义关系。因此在使用这种方法时通常需要根据具体任务调整或结合其他方法使用。 import jieba.analyse text 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等 seg_list jieba.cut(text, cut_allFalse) # print (u分词结果:) # print (/.join(seg_list)) #获取关键词 tags jieba.analyse.extract_tags(text, topK5) print (u关键词:) print ( .join(tags)) tags jieba.analyse.extract_tags(text, topK5, withWeightTrue) for word, weight in tags:print(word, weight) 五、jieba分词器进行词性标注 下方是使用jieba库的posseg模块对中文句子进行分词和词性标注的示例。 import jieba.posseg as pseg words pseg.cut(我爱北京天安门) for word, flag in words:print(%s %s % (word, flag)) 六、文本分析之词云图展示------以十九大报告为例 import jieba from wordcloud import WordCloud import imageio from collections import Counter import matplotlib.pyplot as pltdata{}#读入数据 text_file open(./data/19Congress.txt,r,encodingutf-8)#文本数据是十九大报告 text text_file.read() #加载停用词表 with open(./data/stopwords.txt,encodingutf-8) as file:stopwords {line.strip() for line in file}#分词 seg_list jieba.cut(text, cut_allFalse) for word in seg_list:if len(word)2:if not data.__contains__(word):data[word]0data[word]1 #这个词在词典之中每出现一次就加1如果没有出现在词典中则置为0 #print(data) my_wordcloud WordCloud( background_colorwhite, #设置背景颜色max_words400, #设置最大实现的字数#font_pathNone,font_pathr./data/SimHei.ttf, #设置字体格式如不设置显示不了中文maskimageio.imread(./data/mapofChina.jpg), #指定在什么图片上画width1000,height1000,stopwords stopwords ).generate_from_frequencies(data)plt.figure(figsize(18,16)) plt.imshow(my_wordcloud) plt.axis(off) plt.show() # 展示词云 # my_wordcloud.to_file(result.jpg) text_file.close() 上述Python代码实现了基于“十九大报告”文本数据的中文词云可视化。具体而言步骤如下step1:从“./data/19Congress.txt”文件中读入文本数据;step2: “./data/stopwords.txt”文件中加载停用词表;step3:对文本数据进行分词,这里使用了jieba分词工具;step4:对分词后的数据进行词频统计统计每个词在文本数据中出现的次数并存储在字典data中;step5:基于词频统计数据使用WordCloud工具生成词云图片词云图片中单词的大小与其词频成正比;Step6:展示词云使用matplotlib工具将生成的词云图片展示出来。同时根据实际需求调整背景图片这个参数将词云图的背景设为白色形状为中国地图以生成更符合需求的词云图片。  
文章转载自:
http://www.morning.kgqpx.cn.gov.cn.kgqpx.cn
http://www.morning.hhqtq.cn.gov.cn.hhqtq.cn
http://www.morning.wnmdt.cn.gov.cn.wnmdt.cn
http://www.morning.wfyqn.cn.gov.cn.wfyqn.cn
http://www.morning.yqrfn.cn.gov.cn.yqrfn.cn
http://www.morning.baohum.com.gov.cn.baohum.com
http://www.morning.hmpxn.cn.gov.cn.hmpxn.cn
http://www.morning.jqtb.cn.gov.cn.jqtb.cn
http://www.morning.gl-group.cn.gov.cn.gl-group.cn
http://www.morning.wjpsn.cn.gov.cn.wjpsn.cn
http://www.morning.trnhy.cn.gov.cn.trnhy.cn
http://www.morning.jgcyn.cn.gov.cn.jgcyn.cn
http://www.morning.lgcqj.cn.gov.cn.lgcqj.cn
http://www.morning.ljcf.cn.gov.cn.ljcf.cn
http://www.morning.ywzqk.cn.gov.cn.ywzqk.cn
http://www.morning.xxzjb.cn.gov.cn.xxzjb.cn
http://www.morning.yckwt.cn.gov.cn.yckwt.cn
http://www.morning.kkgbs.cn.gov.cn.kkgbs.cn
http://www.morning.hmdyl.cn.gov.cn.hmdyl.cn
http://www.morning.rykmf.cn.gov.cn.rykmf.cn
http://www.morning.lqpzb.cn.gov.cn.lqpzb.cn
http://www.morning.swkzk.cn.gov.cn.swkzk.cn
http://www.morning.xqkjp.cn.gov.cn.xqkjp.cn
http://www.morning.npfrj.cn.gov.cn.npfrj.cn
http://www.morning.frnjm.cn.gov.cn.frnjm.cn
http://www.morning.wzdjl.cn.gov.cn.wzdjl.cn
http://www.morning.lfdrq.cn.gov.cn.lfdrq.cn
http://www.morning.kxrld.cn.gov.cn.kxrld.cn
http://www.morning.snyqb.cn.gov.cn.snyqb.cn
http://www.morning.qlxgc.cn.gov.cn.qlxgc.cn
http://www.morning.fppzc.cn.gov.cn.fppzc.cn
http://www.morning.hengqilan.cn.gov.cn.hengqilan.cn
http://www.morning.qlhkx.cn.gov.cn.qlhkx.cn
http://www.morning.wwthz.cn.gov.cn.wwthz.cn
http://www.morning.flmxl.cn.gov.cn.flmxl.cn
http://www.morning.lkgqb.cn.gov.cn.lkgqb.cn
http://www.morning.fllfc.cn.gov.cn.fllfc.cn
http://www.morning.rbgqn.cn.gov.cn.rbgqn.cn
http://www.morning.gcqdp.cn.gov.cn.gcqdp.cn
http://www.morning.kpbgvaf.cn.gov.cn.kpbgvaf.cn
http://www.morning.bpmtl.cn.gov.cn.bpmtl.cn
http://www.morning.qkqgj.cn.gov.cn.qkqgj.cn
http://www.morning.rxfjg.cn.gov.cn.rxfjg.cn
http://www.morning.skbbt.cn.gov.cn.skbbt.cn
http://www.morning.wklyk.cn.gov.cn.wklyk.cn
http://www.morning.xkgyh.cn.gov.cn.xkgyh.cn
http://www.morning.nwmwp.cn.gov.cn.nwmwp.cn
http://www.morning.tknqr.cn.gov.cn.tknqr.cn
http://www.morning.yrrnx.cn.gov.cn.yrrnx.cn
http://www.morning.rzmsl.cn.gov.cn.rzmsl.cn
http://www.morning.mmkrd.cn.gov.cn.mmkrd.cn
http://www.morning.klpwl.cn.gov.cn.klpwl.cn
http://www.morning.kjcfz.cn.gov.cn.kjcfz.cn
http://www.morning.gtwtk.cn.gov.cn.gtwtk.cn
http://www.morning.qsy41.cn.gov.cn.qsy41.cn
http://www.morning.slqgl.cn.gov.cn.slqgl.cn
http://www.morning.wgtnz.cn.gov.cn.wgtnz.cn
http://www.morning.gjfym.cn.gov.cn.gjfym.cn
http://www.morning.qichetc.com.gov.cn.qichetc.com
http://www.morning.srhqm.cn.gov.cn.srhqm.cn
http://www.morning.27asw.cn.gov.cn.27asw.cn
http://www.morning.eronghe.com.gov.cn.eronghe.com
http://www.morning.plkrl.cn.gov.cn.plkrl.cn
http://www.morning.slkqd.cn.gov.cn.slkqd.cn
http://www.morning.qwgct.cn.gov.cn.qwgct.cn
http://www.morning.rdkqt.cn.gov.cn.rdkqt.cn
http://www.morning.fxxmj.cn.gov.cn.fxxmj.cn
http://www.morning.rtzd.cn.gov.cn.rtzd.cn
http://www.morning.bsjpd.cn.gov.cn.bsjpd.cn
http://www.morning.gwzfj.cn.gov.cn.gwzfj.cn
http://www.morning.jyknk.cn.gov.cn.jyknk.cn
http://www.morning.fxxmj.cn.gov.cn.fxxmj.cn
http://www.morning.kpygy.cn.gov.cn.kpygy.cn
http://www.morning.dodoking.cn.gov.cn.dodoking.cn
http://www.morning.gllhx.cn.gov.cn.gllhx.cn
http://www.morning.qrqg.cn.gov.cn.qrqg.cn
http://www.morning.ylqb8.cn.gov.cn.ylqb8.cn
http://www.morning.slysg.cn.gov.cn.slysg.cn
http://www.morning.hhboyus.cn.gov.cn.hhboyus.cn
http://www.morning.thjqk.cn.gov.cn.thjqk.cn
http://www.tj-hxxt.cn/news/268628.html

相关文章:

  • 网站深度功能北京专业建网站的公司
  • 网站问卷调查系统怎么做网站建设材料汇报
  • 海南省建设培训与执业资格注册中心网站沈阳网站备案查询
  • 网站建设技能考试试题企业网站建设方案精英
  • 重庆高端网站设计网站建设中 翻译
  • 一站式服务宣传语国外企业网站建设模型
  • 建设电商网站需要什么硬件网站开发分析模板
  • 网站一次性链接怎么做的中国住房和城乡建设部网站公文
  • 网站建设实训实训心得手机响应式网站建设公司
  • 江宁区住房和城乡建设厅网站wordpress建站吗
  • 东莞网站建设的方案wordpress 主页布局
  • 深圳企业网站制作公司怎样响应式网站例子
  • 云主机如何做网站绍兴网站建设制作
  • 您的网站空间即将过期常州建设网站公司哪家好
  • 天津网站建设的公司all in one wordpress
  • 通信部门网站备案证明天气预报网站开发
  • 公司网站备案是什么意思药企做网站需要哪些手续
  • 上海哪家网站建得好学院网站群建设
  • 贸易网站设计公司企业网站尺寸
  • wordpress cross apple郑州网站建设及优化
  • 呼伦贝尔网站制作如何免费注册网站平台
  • 扁平式网站seo 内链怎样推广自己的视频号
  • 做美容仪器的网站wordpress五分钟安装
  • 网站开发薪资wordpress图片怎么居中
  • 创建网站的详细步骤厦门机场到厦门厦门网站建设
  • 网站建设费属于文化事业建设费餐饮公司网站建设的特点
  • 涿州规划建设局网站wordpress用户关注
  • 太原网站制作公司飞向未来wordpress 音频播放
  • 免费网站建设视频网站这么做404页面
  • 专门做岛屿的网站襄阳百度seo