当前位置: 首页 > news >正文

美美淘-专做女鞋拿货选款网站seo关键词排名优化专业公司

美美淘-专做女鞋拿货选款网站,seo关键词排名优化专业公司,南京高端网站建设,做一款推荐类的网站为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷,将词表示成一个低维的实数向量,且相似的词的向量表示是相近的,可以用向量之间的距离来衡量相似度。 N-gram 统计语言模型是用来计算句子概率的…

为了弥补 One-Hot 独热编码的维度灾难语义鸿沟以及 BOW 词袋模型丢失词序信息稀疏性这些缺陷,将词表示成一个低维的实数向量,且相似的词的向量表示是相近的,可以用向量之间的距离来衡量相似度。

N-gram 统计语言模型是用来计算句子概率的概率模型,即某一个词的出现由其前面每一个词出现的概率决定。假设一个长度为N的句子,句子 S=(X1,...,XN),那么这个句子的概率(也就是这 N 个词共同出现的概率)如下:

P(S=(X1,..., XN))=P(X1)P(X2|X1)...P(XN)|X1...X(N-1))

N的取值名称含义
1Unigram当前词出现的概率仅仅与自身相关
2Bigram当前词出现的概率仅仅与前面的1个词相关
3Trigram当前词出现的概率仅仅与前面的2个词相关
.........
NN-gram当前词出现的概率仅仅与前面的(N-1)个词相关

例如,长度为4的序列X1, X2, X3, X4 在Ungram、Bigram和Trigram中的概率分别为:

P(X1, X2, X3, X4) = P(X1)P(X2)P(X3)P(X4)

P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X2)P(X4|X3)

P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X1, X2)P(X4|X2, X3)

随着 N 的取值越大,N-gram 模型在理论上越精确,但是也越复杂,需要的计算量和训练语料数据量也就越大,并且精度提升的不够明显,所以在实际的任务中很少使用 n>3 的语言模型。

例如,使用一个含有三句话的微型语料库,而且需要在这三句话的前后分别加上开始符<BOS>和结束符 <EOS>(目的是为了让以某一词为条件的所有概率加起来是 1,从而保证这确实是一个合法的概率分布)接下来我们来看语料:

<BOS>我爱你<EOS>
<BOS>我爱她<EOS>
<BOS>她爱你<EOS>

BOS:Begining Of Sequence,代表序列开始。 EOS:End Of Sequence,代表序列结束。

利用 Bi-gram 计算各个词出现的概率:

  • 单词 "<BOS>" 出现的次数:3次
  • 单词 "我" 出现的次数:2次
  • 单词 "爱" 出现的次数:3次
  • 单词 "你" 出现的次数:2次
  • 单词 "她" 出现的次数:2次
  • 单词 "<EOS>" 出现的次数:3次
  • 二元组 "我爱" 出现的次数:2次
  • 二元组 "爱你" 出现的次数:2次
  • 二元组 "她爱" 出现的次数:1次
  • 二元组 "爱她" 出现的次数:1次
  • 二元组 "<BOS>我" 出现的次数:2次
  • 二元组 "<BOS>她" 出现的次数:1次
  • 二元组 "你<EOS>" 出现的次数:2次
  • 二元组 "她<EOS>" 出现的次数:1次

利用 Bi-gram 计算相邻两个词先后出现的概率: 

  • P(我|<BOS>) = Count(<BOS>我) / Count(<BOS>) = 2/3;
  • P(她|<BOS>) = Count(<BOS>她) / Count(<BOS>) = 1/3;
  • P(爱|) = Count(我爱) / Count(我) = 1;
  • P(<EOS>|你) = Count(你<EOS>) / Count(你) = 1;
  • P(你|) = Count(爱你) / Count(爱) = 2/3;
  • P(她|爱) = Count(爱她) / Count(爱) = 1/3;
  • P(爱|) = Count(她爱) / Count(她) = 1/2;
  • P(<EOS>|她) = Count(她<EOS>) / Count(她) = 1/2.

这样我们就完成了 Bi-gram 各个概率值的计算,整个句子的概率就是挑选出对应的概率相乘即可。

  • P(<BOS>我爱你<EOS>) = P(我|<BOS>) × P(爱|) × P(你|) × P(<EOS>|你) = 2/3 × 1 × 2/3 ×1 = 4/9
  • P(<BOS>我爱她<EOS>) = P(我|<BOS>) × P(爱|) × P(她|) × P(<EOS>|你) = 2/3 × 1 × 1/3 ×1 = 2/9
  • P(<BOS>她爱你<EOS>) = P(她|<BOS>) × P(爱|) × P(你|) × P(<EOS>|你) = 1/3 × 1 × 1 × 2/3 = 2/9

N-gram 语言模型使用统计频次来近似概率值,可能会出现数据稀疏问题:

  • 如果分子为0,估计的概率值为0,由于连乘的方式会导致最终计算出句子的概率值为0;
  • 如果分母为0,分母为0,计算的公式将没有任何意义
http://www.tj-hxxt.cn/news/9080.html

相关文章:

  • 河南航天建设工程有限公司网站网络优化工程师
  • 专业网站设计工作室广东网站se0优化公司
  • seo搜索引擎入门教程seo网站培训优化怎么做
  • 商贸公司的网站建设重庆seo全网营销
  • phpcms v9企业网站模板(简洁利于优化)青岛做网站推广公司
  • 静态网站怎么做百度怎么推广自己的作品
  • 网站域名301网页制作免费模板
  • 做期货与做网站的关系域名注册查询软件
  • 找建网站公司电脑版百度
  • 手机上怎么上传网站吗平台推广营销
  • 网址导航app下载广州seo网络优化公司
  • 电力建设集团网站南京seo关键词优化预订
  • 做旅游的网站推广文案范文100字
  • 做网站的费用记什么会计科目市场调研报告包括哪些内容
  • 网站安全建设论文手机网站建设价格
  • 查找5个搜索引擎作弊的网站在线磁力搜索引擎
  • 怎样在手机做自己的网站6网络推广方案范文
  • 国外网站搭建平台指数型基金怎么买
  • wordpress教育培训主题百度seo是什么
  • 哪个网站卖自己做的手工艺品磁力链bt磁力天堂
  • 禅城网站制作百度认证服务平台
  • 做爰全的网站歌尔股份砍单
  • 做网站时怎么让边框细一点沈阳网站制作公司
  • 记事本做网站文字居中北京网站优化推广公司
  • 专业制作网站系统在线营销推广
  • 企业网站制作排名国内能用的搜索引擎
  • 中国建设银行手机网站首页如何做一个自己的网站
  • 网站开发报价单.doc加强网络暴力治理
  • 哪家做网站便宜企业培训十大热门课程
  • 模板网站建设全过程百度上做优化