当前位置: 首页 > news >正文

做网站明细范文游戏网站首页设计

做网站明细范文,游戏网站首页设计,dedecms 网站地图 插件,深圳建设集团员工1.文本相似度计算简介 在自然语言处理中#xff0c;经常会涉及度量两个文本相似度的问题。在诸如对话系统和信息减速等中#xff0c;度量句子或短语之间的相似度尤为重要。在新闻学传媒中应用文本相似度可以帮助读者快速检索到想要了解的报道。 文本相似度的定义式如下所示经常会涉及度量两个文本相似度的问题。在诸如对话系统和信息减速等中度量句子或短语之间的相似度尤为重要。在新闻学传媒中应用文本相似度可以帮助读者快速检索到想要了解的报道。 文本相似度的定义式如下所示 其中common(A,B)和A和B的共性信息description(A,B)是描述A和B的全部信息上式表达出相似度与文本共性成正相关。由于没有限制应用领域由此此定义被广泛采用。 相似度一般可用[0,1]中的实数表示该实数可通过语义距离计算获得。相似度与语义距离呈负相关。语义距离较小相似度越高语义距离越大则相似度越低。通常用下式表示相似度与语义距离的关系。 其中表示文本、之间的非负语义距离a为调节因子保证当语义距离为0时上式具有意义。 2.文本的表示 文本相似度的计算原理中还有一个重要概念是文本的表示代表对文本的基本处理方法目的是将半结构化或非半结构化的文本转换为计算机可读形式。不同的文本相似度计算方法的本质是文本表示方法的不同文本的表示方式包括3种一是基于关键词匹配的传统方法如n-gram相似度等二是基于向量空间的方法这种方法将文本映射到向量空间再利用余弦相似度等方法计算相似度三是基于深度学习的方法如基于用户点击数据的深度语义模型DSSM、基于卷积神经网路(CNN)的ConvNet以及Siamese LSTMTransformers模型BERT、GPT等)等方法。随着深度学习的发展计算文本相似度的主流方法已经逐渐不在是基于关键词匹配的传统方法而是基于深度学习的方法。 2.1 基于关键词匹配的文本表示的方达 2.1.1 n-gram相似度 基于n-gram模型定义文本字符串相似度是一种模糊匹配方式即通过两个长得很像的文本间的“差异”来衡量相似度。n-gram相似度的计算按长度N切分原句得到词段也就是原句中所有长度为N的子字符串。对于两个字符串S和T则可以根据共有子字符串的数量定义两个字符串的相似度如下式。 其中、分别表示字符串S和T中n-gram的集合N一般取2或3。字符串距离越近他们越相似。当两个字符串完全相等时距离为0。 2.1.2 杰卡德相似度 杰卡德相似度的计算相对简单原理也容易理解就是计算两个文本之间词集合的交集字数和并集字数的比值如下式所示。该值越大表示两个文本越相似。在涉及大规模并行运算的时候该方法的效率上有一定优势。 其中0JA,B1 关于杰卡德相似度更详细的内容在后面进行讲解。 2.2 基于向量空间的文本表示方法 基于向量空间的文本表示方法目前有3种方法第1种是词网(WordNet)它可提供一种词的分类资源但是无法体现词与词之间的细微区别同时它也很难计算词与词之间的相似度第2种是离散表示如独热表示它的向量长度和字典的长度相同因此向量长度可能十分长同时由于向量之间正交因此无法计算词之间的相似度第3种是分布式表示其基本思想是将每个词映射为一个固定长度的短向量(相对独热表示而言)这些词构成一个词向量空间每一个向量视为空间中的一个点在这个空间引入“距离”即可根据词之间的距离来判断它们之间的相似性 代表方法如 Word2Vec、LDA等。 2.3 基于深度学习的文本表示方法 深度学习在图像和语音识别领域中取得了不错的进展近些年深度学习也开始应用于自然语言处理。语义相似性匹配已经逐渐从人工设计特征转向分布式表示和神经网络结构相结合的方式。常见的基于深度学习的文本表示方法有DSSM、ConvNet、Skip-Thoughts、Tree-LSTM 和 Siamese Network。  (1)DSSM 在检索场景下利用用户的点击数据来训练语义层次的匹配。DSSM 利用点击率来代替相关性点击数据中包含大量的用户问句和对应的点击文档这些点击数据将用户的问题和匹配的文档连接起来。DSSM的优点在于直接利用用户的点击数据得到的结果可以直接排序但是缺点在于没有利用上下文信息。DSSM的扩展还包括CDSSM、DSSM-LSTM 等。其中CDSSM能在一定程度上弥补上下文缺失的缺陷在结构上将DNN  替换成CNN; DSSM-LSTM使用长短期记忆(Long Short-Term Memory, LSTM)记录上下文。   (2)ConvNet通过精心设计CNN 结合不同规格的CNN的差异性度量句子的相似度。在实际应用中 可采用“Siamese”(孪生) CNN结构 分别对两个句子建模 然后利用一个句子相似度测量层计算句子相似度最后通过一个全连接层输出 softmax相似度得分。一个句子首先被转化为嵌入矩阵(Embedding Matrix) 然后输入卷积-池化层得到处理后的句子向量。为更好地计算句子之间的相似度该模型分别对不同的输出结果计算其相似性最终将相似度向量输入全连接层得到相似性分数将其与标签值相比较。总体来看这个模型的复杂度还是很高的而且对卷积核在垂直方向的计算也没有特别直观的解释。   (3) Skip-Thoughts 的核心思想是将 Word2Vec 中的 Skip-Gram模型从词的层面扩展到句子的层面利用 seq2seq 模型预测输入语句的上下句。在之前的各类监督方法中模型通过确定的标签作为优化目标更新参数虽然取得了不错的效果但是只能适用于不同的任务。模型在一个连续的文本语料(小说)上进行训练通过 Encoder 端将词转化为句子向量量 然后在 Decoder 端结合 Encoder 端的句子向量生成上下文语句。对于这样一个模型最大的问题在于如何把有限的词扩展到任意的词或句子。针对这个问题可以采用的方法是学习一种映射将一个模型中的词表示映射到另外一个模型中。具体的操作是把CBOW中预训练得到的词向量映射到 Encoder 端的词空间最终将词汇量扩展。训练好的Skip-Thoughts模型会将Encoder端作为特征提取器,对所有的句子提取Skip-Thoughts向量,  得到的这些向量表示可以用在不同的任务(如语义相似度计算)中。          (4) Tree-LSTM的核心思想是将对语序敏感的标准LSTM 序列推广为树状结构的网络拓扑图。标准LSTM 仅考虑句子的序列信息但是在自然语言中句法结构能够自然地将词结合成短语或句子,因此可利用句法结构信息生成LSTM 扩展结构: Child-Sum Tree-LSTM和N-ary Tree-LSTM。          (5) Siamese Network用来度量数据之间的相似性。将两组数据(文本、图像等)同时输入一个神经网络中并经由这个神经网络转化为N×1 维的向量此后会通过一个数值(如余弦相似度)函数计算这两个向量的距离通过得到的距离来度量原始输入数据的相似性。在标准的Siamese Network中 两侧的神经网络需要使用相同的网络结构和参数同时在进行梯度更新前需要先对两侧的梯度平均。 关于Siamese Network模型有以下两点值得注意。   一是在 Siamese Network 中采用孪生 LSTM, 是因为 LSTM 能够解决循环神经网络(Recurrent Neural Network, RNN) 的长期依赖问题, 通过使用记忆单元(Memory Cell),LSTM 能够储存更长输入序列的信息。当然对特别长的句子而言标准的LSTM 能力也是有限的。对于长度超过30个字符的长句子通过模型得到的最终隐藏层状态占据比重较大的还是后面的词前面的词基本“消失”因此需要用到注意力机制。   二是在度量相似性的时候采用曼哈顿距离而不是欧氏距离。根据目前的主流观点一方面用Word2Vec训练出来的词存在大量欧氏距离相等的情况如果用L2范数去衡量存在语义丢失的情况而余弦相似度适合向量维数特别大的情况因此采用曼哈顿距离最合适另一方面采用L2范数会存在梯度消失的问题在训练的早期 L2范数会错误地认为两个语义不相关的句子相似(因为采用欧氏距离时的梯度消失问题)。 3.常用文本相似度算法 在文本相似度的计算中根据需求选择合适的算法尤为重要。比如在论文查重的时候依据杰卡德相似度寻找相似的文章再使用欧氏距离精确查找重复段落。 3.1 欧式算法 1.欧氏距离欧氏距离公式是数学中的一个非常经典的距离公式如下式所示。 上式中 d 表示欧氏距离和分别表示需要计算相似度的2个文本向量中应位置的元素。 例如计算“产品经理”和“产业经理是什么”之间的欧氏距离具体计算过程如下。         文本向量A  ( 产 ,品经理即 产 品  经,  理 、 、均为空 文本向量B产业经理是什么即 产 业  经,  理是 、什 、么         规定若  则若         可以得到文本向量A和B的欧氏距离d如下式所示。 该相似度算法主要适用场景为编码检测等。两串编码必须完全一致才能通过检测如果编码中有一个移位或一个错字可能会造成较大的差异。例如有两个二维码一个二维码的内容是“这是一篇文本相似度的文章”另一个二维码的内容是“这是一篇文本相似度文章”从人的理解角度来看这两句话相似度非常高但是实际上这两句话生成的二维码却千差万别。文本相似度意味着要能区分相似或差异的程度而欧氏距离只能区分出文本中的元素是否完全一样并且欧氏距离对文本的位置和顺序非常敏感。如“我的名字是孙行者”和“孙行者是我的名字”从人的角度看这两段文本的相似度非常高但如果用欧氏距离计算两段文本的相似度那么会发现两个文本向量每个位置的值都不同即完全不匹配。 3.2 曼哈顿距离 曼哈顿距离的计算公式与欧氏距离的计算公式非常相似。相较于欧氏距离曼哈顿距离的计算公式将求平方换成了求绝对值并去除了根号如下式所示。                                                          曼哈顿距离的适用场景与欧氏距离的适用场景类似。 3.3 编辑距离 编辑距离又称莱文斯坦Levenshtein距离指的是将文本A编辑成文本B需要的最少变动次数每次只能增加、删除或修改一个字。         例如计算“椰子”和“椰子树”之间的编辑距离。         因为将“椰子”转化成“椰子树”至少需要且只需要1次改动如“椰子”→增加“树”→“椰子树”反过来将“椰子树”转化成“椰子”也至少需要1次改动如“椰子树”→删除“树”→“椰子”所以“椰子”和“椰子树”的编辑距离是1。         因此可以看出编辑距离是对称的即将A转化成B的最小变动次数和将B转化成A的最小变动次数是相等的。         同时编辑距离与文本的顺序有关。例如“椰子”和“子椰”虽然都是由“椰”“子”组成的但因为组词顺序变了所以其编辑距离是2而不是0具体计算过程如下。         “椰子”→删除“子”→“椰”→增加“子”→“子椰” “椰子”→删除“椰”→“子”→增加“椰”→“子椰” “椰子”→“子”变“椰”→“椰椰”→“椰”变“子”→“子椰” “椰子”→“椰”变“子”→“子子”→“子”变“椰”→“子椰”         如果文本的编辑距离很小则文本相似度肯定很高。虽然据此会漏判一些高相似度的文本但可以确保通过编辑距离筛选的文本相似度一定很高。但在某些业务场景中漏判会引起严重后果例如“批发零售”和“零售批发”从人的角度理解这两段文本应该高度相似可编辑距离却是4相当于完全不匹配这显然不符合预期。 3.4 杰卡德相似度 杰卡德相似度指的是文本A与文本B中交集的字数除以并集的字数如下式所示。                                                                  如果要计算文本的杰卡德距离将式4-8稍做改变即可如上式所示。                                                                  计算“目不转睛”和“目不暇接”的杰卡德相似度示例如下。         这两段文本的交集为目不并集为目不转睛暇接所以杰卡德相似度。         杰卡德相似度与文本的位置、顺序均无关。例如“王者荣耀”和“荣耀王者”的相似度是100无论“王者荣耀”这4个字怎么排列最终相似度都是100。         在某些情况下会先将文本分词再以词为单位计算相似度。例如将“王者荣耀”切分成“王者荣耀”将“荣耀王者”切分成“荣耀王者”那么交集就是王者荣耀并集也是王者荣耀相似度仍是100。         该算法主要适用于对字词的顺序不敏感的文本如“零售批发”和“批发零售”可以很好地兼容以及长文本如一篇论文甚至一本书。如果两篇论文相似度较高说明交集比较大很多用词是重复的存在抄袭嫌疑。         该算法不太适用于两种情况。一是重复字符较多的文本例如“这是是是是是是一个文本”和“这是一个文文文文文文本”这两个文本有很多字不一样但计算得到的杰卡德相似度却是100交集并集二是对文字顺序很敏感的场景例如“一九三八年”和“一八三九年”计算得到的杰卡德相似度是100实际上两段文本代表的意思却完全不同。 3.5 余弦相似度 余弦相似度的“灵感”来自数学中的余弦定理计算公式如下所示。                         ​​​​​​​         在上式中A、B分别是两段文本对应的n维向量。例如文本一是“一把雨伞”文本二是“下雨了开雨伞”计算这两段文本的余弦相似度。可以看出这两段文本的并集为一把雨伞下了开共7个字。         若并集中的第1个字在文本一中出现了n次则。         若并集中的第2个字在文本一中出现了n次则         以此类推算出 , ,  , 及 ,  , , 最终可以得到 , 。         将A、B代入式中得到的结果如下式所示        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         余弦相似度和杰卡德相似度虽然计算方式差异较大但性质很类似都与文本的交集高度相关所以它们的适用场景也非常类似。余弦相似度相比杰卡德相似度最大的不同在于它考虑到了文本的频次例如“下雨了开雨伞”中出现了2次“雨”“一把雨伞”只出现1次“雨”计算得到的余弦相似度是不同的。例如“这是是是是是是一个文本”和“这是一个文文文文文文本”余弦相似度是39在不考虑语义的前提下整体上符合“相同的内容少于一半但超过13”的观感。         余弦相似度不太适用于向量之间方向相同但大小不同的情况通常这种情况下余弦相似度是100。例如“太棒了”和“太棒了太棒了太棒了”向量分别是1,1,1和3,3,3计算出的相似度是100。可根据业务场景进行取舍在有些场景下认为两者意思差不多只是语气程度不一样此时可认为使用余弦相似度计算出的文本相似度是可靠的在有些场景下认为两者差异很大哪怕两段文本所表达的意思差不多但纯粹从文本的角度来看相似度并不高因为前者为3个字、后者为9个字在这种场景下使用余弦相似度计算出的文本相似度是不理想的。 3.6 哈罗距离 哈罗Jaro距离是指对两个字符串的相似度进行衡量以得出两个字符串的相似程度如式下所示。         ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         其中m是两个字符串中相互匹配的字符数量和表示两个字符串的长度字符数量t是换位数量。         用于字符串匹配的阈值如下式所示。 ​​​​​​​           当字符串中某字符与字符串中某字符相同且这些相同字符的位置相距小于等于k时则认为这两个字符串是匹配的。         例如“我明白了”和“快一点告诉我”按上式算出k  2。虽然两个字符串中都有“我”字但一个在第1位另一个在第6位相距为5大于k值所以这两个字符串没有任何一个字符是匹配的。再例如“我明白了”和“明白了我”k  1所以这两.个字符串的“明”“白”“了”是匹配的但是“我”是不匹配的所以两者有3个字符是匹配的。将和匹配的字符依次抽出来其中顺序不一样的字符即为换位数量。         例如计算“我表白了一个女孩”和“近几天我白表了一次情”的哈罗距离示意如下。         匹配的字符有5个即m  5分别是“我”“表”“白”“了”,“一”。         将中的匹配字符依次抽出来得到一个向量  (我表白了一。         将中的匹配字符依次抽出来得到一个向量我白表了一。         比对和发现有2个位置的值不一样即第2位和第3位所以换位数t  2 。         代入上式中可以得到哈罗距离 。 该算法主要适用于对位置、顺序敏感的文本。文本位置的偏移很容易使匹配字符数m变少文本顺序的变换会使换位数量t增大。它们都会使哈罗距离减小。如果某业务场景下需要考虑文本位置偏移、顺序变换的影响既不希望位置或顺序变了相似度却保持不变又不希望直接“一刀切”将相似度变为0那么此时使用哈罗距离计算文本相似度是十分合适的。         哈罗距离从换位字符数的角度看与编辑距离类似从匹配字符的抽取角度看又与“交集”类似。         最后使用一个例子对本节中的相似度算法进行横向对比计算“我表白了一个女孩”和“近几天我白表了一次情”的文本相似度。 使用编辑距离计算文本相似度其中长度是8长度是10因此得到编辑距离等于8从数据上看文本非常不相似与人的感官预期差异很大。使用杰卡德相似度算出来是38.5相似度比较低和人的感官预期差异较大。使用余弦相似度算出来是55,9和哈罗距离计算得到的结果相近都是50以上比较符合人的感官预期即超过一半的内容是相同的同时有将近一半内容是不同的。如果在此例中调整字符顺序让换位数量t变大让匹配数量m变小则得到余弦相似度不变而哈罗距离会减小。
http://www.tj-hxxt.cn/news/136889.html

相关文章:

  • 网站程序制作dell网站设计特色
  • 网站页面怎么做武钢建设公司网站
  • 大连市城乡建设局网站福建住房和城乡建设厅网站一体化平台
  • 个人工作室网站app生成链接
  • 深圳网站建设模板乐云seo网站界面设计的主要内容
  • 网站模板 响应式怎么在网上做公司网站
  • 丰都网站建设哪家好网站建设费用低设计好
  • 东莞网站优化关键词公司怎样添加字体到wordpress
  • 微信代运营协议奢侈品网站怎么做tuig优化
  • 休闲食品网站建设目的wampserver网站开发步骤
  • 房产网贷平台宁波网站优化如何
  • 外包网站会自己做原型吗动画设计培训费用
  • 虹口房产网站建设圣诞节网站怎么做
  • 做我的世界壁纸的网站怎样上传图片到wordpress
  • wordpress搭建下载站点建筑工程完工证明格式
  • 杭州建网站企业装饰公司响应式网站建设案例
  • 有没有通信专业业余做兼职的网站网站建设郑州
  • 杭州 seo网站建设 网络服务wordpress 不显示时间
  • 下载网站的服务器文件菏泽建设信息网官网
  • 做电商网站的设计思路有什么意思哪个网站可以做加工代理的
  • 网站底部样式网站中英文切换怎麼做
  • 怎么自己在百度上做网站广州手机软件开发定制
  • 四川seo整站优化费用阿里巴巴国际站怎么注册
  • 西安微信商城网站设计企业网站建设预算
  • 网站被k查询网站开发顶岗报告
  • 广州网站建设广州网络推广公司排名广州seo推广服务
  • 做洗化的网站做网站都用到哪些软件
  • 百度新网站收录大连网站外包
  • 自己电脑做电影网站seo网站优化公司
  • 精品课程网站建设总结报告长春网站建设致电吉网传媒优