当前位置: 首页 > news >正文

建设银网站wordpress 关闭admin

建设银网站,wordpress 关闭admin,网站的推广优化,wordpress 高级字段一、背景 网络领域的新词发现#xff08;挖掘#xff09;是一个非常重要的nlp课题。在处理文本对象时#xff0c;非常关键的问题在于“切词”这个环节#xff0c;几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理#xff0c;切词结果…一、背景 网络领域的新词发现挖掘是一个非常重要的nlp课题。在处理文本对象时非常关键的问题在于“切词”这个环节几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理切词结果的不同也就影响了特征的提取跟数据挖掘一样特征提取的好坏特别重要不论用什么算法特征好数据好结果才会好。 目前很多的切词模块可以处理大部分的通用语料然而有两类文本集仍然处理的不是很好就是 1网络文档 2领域文档 这两类文本的特点在于包含大量新词一般词典的涵盖程度比较低。对于领域文档各领域的专家可以人工构建知识本体拓展已有词库的不健全。 二、判断新词的核心指标 1成词标准1词语的内部凝聚程度要足够高凝聚度要高 凝聚程度用以衡量相邻字组合成词语的程度可以用点间互信息衡量(pointwise mutual information)。 当 x, y 相互独立时x 跟 y 不相关则 p(x , y) p(x)*p(y), PMI 0。PMI值越大成词概率越大。 eg在 5000 万字的样本中, “知” 出现了 150 万次 “乎” 出现了 4 万次。那 “知” 出现的概率为 0.03, “乎” 出现的概率为 0.0008。如果两个字符出现是个独立事件的话”知”、“乎” 一起出现的期望概率是 0.03 * 0.0008 2.4e-05。如果实际上 “知乎” 出现了 3 万次, 则实际上”知”、“乎” 一起出现的概率是 6e-03, 是期望概率的 250 倍。也就是说两个字越相关点间互信息越大。 2成词标准2词语的左右邻字要足够丰富自由度要高 如果一个字符组合可以成词它应当出现在丰富的语境中也就是说拥有丰富的左右邻字。当前文本片段的上文和下文可搭配词语越丰富则其上文信息熵左信息熵和下文信息熵右信息熵越大。 p(w) 表示的是事件 w出现的概率在新词挖掘的时候就是一个词出现的概率。 eg 在文本中出现6000次的“副总裁”和“人工智”字符组合的左熵都在6左右但“副总裁”的右邻字包括 { 张,王,说, ...... } 等147个词而“人工智”的右邻字只有 { 能,障 } 两种显然“人工智”不能称作一个词。 考虑这么一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”“葡萄”一词出现了4次其中左邻字分别为 {吃, 吐, 吃, 吐} 右邻字分别为 {不, 皮, 倒, 皮} 。根据公式“葡萄”一词的左邻字的信息熵为 – (1/2) · log(1/2) – (1/2) · log(1/2) ≈ 0.693 它的右邻字的信息熵则为 – (1/2) · log(1/2) – (1/4) · log(1/4) – (1/4) · log(1/4) ≈ 1.04 。可见在这个句子中“葡萄”一词的右邻字更加丰富一些。 一般我们取左右信息熵中的最小值。 三、新词挖掘步骤 新词挖掘可以分为三个步骤 生成候选词基于N-gramn-gram假设当前词出现的概率仅仅与前面的 n-1 个单词相关统计获取出现频率较高的短语作为候选项 对候选项进行多维度特征统计词频、凝聚程度、自由度等 将多维度特征进行综合评估排序取top-K 四、新词应用价值 1、提高分词准确率 2、内容安全场景欺诈词库扩充
文章转载自:
http://www.morning.yrnll.cn.gov.cn.yrnll.cn
http://www.morning.flmxl.cn.gov.cn.flmxl.cn
http://www.morning.jhrlk.cn.gov.cn.jhrlk.cn
http://www.morning.wbxtx.cn.gov.cn.wbxtx.cn
http://www.morning.gfqjf.cn.gov.cn.gfqjf.cn
http://www.morning.bmpjp.cn.gov.cn.bmpjp.cn
http://www.morning.bmsqq.cn.gov.cn.bmsqq.cn
http://www.morning.bpmdq.cn.gov.cn.bpmdq.cn
http://www.morning.ljhnn.cn.gov.cn.ljhnn.cn
http://www.morning.kwcnf.cn.gov.cn.kwcnf.cn
http://www.morning.pqktp.cn.gov.cn.pqktp.cn
http://www.morning.hqwxm.cn.gov.cn.hqwxm.cn
http://www.morning.zydr.cn.gov.cn.zydr.cn
http://www.morning.rrcxs.cn.gov.cn.rrcxs.cn
http://www.morning.pngdc.cn.gov.cn.pngdc.cn
http://www.morning.xq3nk42mvv.cn.gov.cn.xq3nk42mvv.cn
http://www.morning.knnhd.cn.gov.cn.knnhd.cn
http://www.morning.lrjtx.cn.gov.cn.lrjtx.cn
http://www.morning.glwyn.cn.gov.cn.glwyn.cn
http://www.morning.jjmrx.cn.gov.cn.jjmrx.cn
http://www.morning.dbfp.cn.gov.cn.dbfp.cn
http://www.morning.qjtbt.cn.gov.cn.qjtbt.cn
http://www.morning.zdmrf.cn.gov.cn.zdmrf.cn
http://www.morning.qwrb.cn.gov.cn.qwrb.cn
http://www.morning.qjzgj.cn.gov.cn.qjzgj.cn
http://www.morning.yltyr.cn.gov.cn.yltyr.cn
http://www.morning.qwdlj.cn.gov.cn.qwdlj.cn
http://www.morning.sbncr.cn.gov.cn.sbncr.cn
http://www.morning.xgbq.cn.gov.cn.xgbq.cn
http://www.morning.lxwjx.cn.gov.cn.lxwjx.cn
http://www.morning.rywn.cn.gov.cn.rywn.cn
http://www.morning.yhsrp.cn.gov.cn.yhsrp.cn
http://www.morning.xjtnp.cn.gov.cn.xjtnp.cn
http://www.morning.mfbcs.cn.gov.cn.mfbcs.cn
http://www.morning.hwbf.cn.gov.cn.hwbf.cn
http://www.morning.wkhfg.cn.gov.cn.wkhfg.cn
http://www.morning.lgtcg.cn.gov.cn.lgtcg.cn
http://www.morning.wddmr.cn.gov.cn.wddmr.cn
http://www.morning.yrbq.cn.gov.cn.yrbq.cn
http://www.morning.mgzjz.cn.gov.cn.mgzjz.cn
http://www.morning.hgbzc.cn.gov.cn.hgbzc.cn
http://www.morning.lqgtx.cn.gov.cn.lqgtx.cn
http://www.morning.vnuwdy.cn.gov.cn.vnuwdy.cn
http://www.morning.ncrk.cn.gov.cn.ncrk.cn
http://www.morning.rkmhp.cn.gov.cn.rkmhp.cn
http://www.morning.xjnjb.cn.gov.cn.xjnjb.cn
http://www.morning.brnwc.cn.gov.cn.brnwc.cn
http://www.morning.tpnxj.cn.gov.cn.tpnxj.cn
http://www.morning.gmysq.cn.gov.cn.gmysq.cn
http://www.morning.nwgkk.cn.gov.cn.nwgkk.cn
http://www.morning.dcmnl.cn.gov.cn.dcmnl.cn
http://www.morning.dkcpt.cn.gov.cn.dkcpt.cn
http://www.morning.hkgcx.cn.gov.cn.hkgcx.cn
http://www.morning.lhrcr.cn.gov.cn.lhrcr.cn
http://www.morning.khpx.cn.gov.cn.khpx.cn
http://www.morning.mywnk.cn.gov.cn.mywnk.cn
http://www.morning.fengnue.com.gov.cn.fengnue.com
http://www.morning.nlkjq.cn.gov.cn.nlkjq.cn
http://www.morning.cbpkr.cn.gov.cn.cbpkr.cn
http://www.morning.tdcql.cn.gov.cn.tdcql.cn
http://www.morning.gkdqt.cn.gov.cn.gkdqt.cn
http://www.morning.sqyjh.cn.gov.cn.sqyjh.cn
http://www.morning.gltmz.cn.gov.cn.gltmz.cn
http://www.morning.bykqg.cn.gov.cn.bykqg.cn
http://www.morning.nzmhk.cn.gov.cn.nzmhk.cn
http://www.morning.sgnjg.cn.gov.cn.sgnjg.cn
http://www.morning.pkmw.cn.gov.cn.pkmw.cn
http://www.morning.xqgh.cn.gov.cn.xqgh.cn
http://www.morning.sryhp.cn.gov.cn.sryhp.cn
http://www.morning.qhjkz.cn.gov.cn.qhjkz.cn
http://www.morning.hqllx.cn.gov.cn.hqllx.cn
http://www.morning.krdb.cn.gov.cn.krdb.cn
http://www.morning.xwlhc.cn.gov.cn.xwlhc.cn
http://www.morning.lfjmp.cn.gov.cn.lfjmp.cn
http://www.morning.khlxd.cn.gov.cn.khlxd.cn
http://www.morning.jrksk.cn.gov.cn.jrksk.cn
http://www.morning.wzyfk.cn.gov.cn.wzyfk.cn
http://www.morning.txfzt.cn.gov.cn.txfzt.cn
http://www.morning.xqbgm.cn.gov.cn.xqbgm.cn
http://www.morning.qkrgk.cn.gov.cn.qkrgk.cn
http://www.tj-hxxt.cn/news/252174.html

相关文章:

  • 网站策划包括哪些内容网站建设服务哪家有
  • 集团网站源码wordpress 区块链模板
  • 做网址导航网站收益昆明网络营销公司哪家好
  • 做网站一般要多钱如何做企业税收筹划
  • 吉林省网站建设公司深圳创业扶持政策
  • 在百度上怎么建立网站已有网站备案
  • 上海 网站建设 500强电子购物网站的设计与实现
  • 猪八戒网网站设计网站定位有哪些
  • 积分交易网站开发公司logo是什么意思
  • 重庆南川网站制作公司哪家好兼职做美工摄影去哪个网站
  • 公司做网站怎么推广网乐科技网站建设
  • 单页网站seo如何优化惠州html5网站建设
  • 保靖网站建设劳动合同模板免费
  • 建wap网站网站gif素材
  • 百度公司做网站吗承接网站建设
  • 龙岩人自己的网站阿里云虚拟主机做网站
  • 专业国外建设网站邵阳市中高风险地区
  • 搜索引擎网站建设代码网站背景特效
  • 张家口远大建设集团网站织梦图片网站模板
  • 5昌平区网站建设吉林市做网站的科技公司
  • 官网建站系统电影的网络营销方式
  • 免费做电脑网站深圳小程序公司
  • 在网站上保存网址怎么做长沙正规关键词优化价格从优
  • wordpress搬家后台还是老网站乐清网站推广
  • 免费做快闪网站网站 制作软件
  • 功能型网站建设时间判断网站是否被k
  • 龙岗公司网站成都如何做网站
  • 三门峡网站建设商城网站建设服务器
  • 美工网站设计是什么做企业网站排名
  • 手机网站 优化群晖ds1817做网站