当前位置: 首页 > news >正文 网站开发接入本地天地图seo大牛 news 2025/10/26 4:41:13 网站开发接入本地天地图,seo大牛,在百度上怎么做网站,wordpress导航栏颜色文章目录 题目摘要方法数据集实验 题目 通过自我标记进行自我监督的上下文关键字和关键词短语检索 论文地址#xff1a;https://www.preprints.org/manuscript/201908.0073/v1 项目地址#xff1a;https://github.com/naister/Keyword-OpenSource-Data 摘要 在本文中#x… 文章目录 题目摘要方法数据集实验 题目 通过自我标记进行自我监督的上下文关键字和关键词短语检索 论文地址https://www.preprints.org/manuscript/201908.0073/v1 项目地址https://github.com/naister/Keyword-OpenSource-Data 摘要 在本文中我们提出了一种通过端到端深度学习方法进行关键字和关键短语检索和提取的新型自监督方法该方法由上下文自标记语料库进行训练。我们提出的方法是新颖的它使用上下文和语义特征来提取关键词并且优于现有技术。通过实验证明该方法在语义和质量上均优于现有流行的关键词提取算法。此外我们建议使用Transform的上下文特征来自动用关键字和关键短语标记短句语料库以构建基本事实。这个过程避免了人工标记关键字的时间并且不需要任何先验知识。据我们所知我们在本文中发布的数据集是 NLP 社区中一个良好的、独立于领域的短句语料库其中带有标记的关键字和关键短语。 关键词是能够简洁、准确地描述文档中全部或部分主题的词[5]。关键字是一元语法而关键短语是 N 元语法即多个单词例如“家庭”是一个关键字“家庭度假”是一个关键字短语。在可理解性方面人们更喜欢关键短语而不是关键字因为与关键字相比关键短语包含上下文更多的信息和含义而关键字的上下文含义在不同的文本环境中可能会有所不同。例如“银行”一词可能意味着银行组织也可能意味着河岸。因此背景是一个重要的方面。在本文中我们通过变压器架构利用文本语料库的上下文特征并使用它们来开发关键字提取模型。 虽然从长语料库中提取关键词和关键短语很容易但从较短的句子中提取相同的关键词和关键短语却有点困难。有几种提出的算法可以成功地从长句子语料库中提取关键词但是它们对于短句子的性能相对较差。我们将在接下来的章节中讨论一些方法。在本文中提出的方法 SCKKRS带有自标签的自监督上下文关键字和关键短语检索适用于长句和短句语料库以在语义和上下文上检索关键字和关键短语。我们提出的方法在提取关键词的同时关注上下文特征因此优于一些现有方法。 方法 关键词和关键短语提取概述关键词和关键短语检索方法大致可分为以下几种统计方法、基于图的方法、语言学方法、机器学习方法和混合方法。在本节中我们将讨论每种方法及其背后的概念。 统计方法在关键词和关键短语提取的统计方法中统计特征的频率测量用于基于语言语料库选择前n个候选者。大多数统计方法都是独立于语言的因此如果有大型语料库它们可以应用于每种语言。Gerard Salton 和 Christopher Buckley [3] 讨论了适当的术语权重系统对于有效的信息检索系统的重要性。使用维基百科等外部资源来确定候选短语 [4] 的重要性也是另一种可能性。此外候选关键短语之间的统计关联可以用作语义一致性的可能代理。 M.W.Berry 等人提出的快速自动关键词提取 (RAKE) [11] 是一种流行的针对单个文档的关键词提取算法可以扩展到多个文档。 Yutaka Matsuo 和 Mitsuru Ishizuka [5] 提出了另一种统计算法用于从单个文档中提取关键字而不依赖于语料库和 TF-IDF 测量。在他们提出的算法中首先确定频繁出现的术语然后根据一些相似性度量对它们进行聚类。研究任何术语与这些簇共现的概率分布的偏差程度。如果存在偏差则该术语很可能是关键字。然而我们应该注意到大多数统计方法都是基于语料库中单词的频率度量并且算法的输出很容易出现语料库中存在的噪声单词。 基于图的方法[18]使用具有共现度量的词袋并为每个文档提供 N 维向量其中 N 是语料库中所有可能单词的数量。文档可以由N维向量的余弦相似度矩阵来表示。因此当我们建立单词和文档之间的图关系时语料库中的单词成为顶点而边代表计算出的相似度。最后可以选择多种中心性算法来提取顶部节点作为关键词和关键短语例如纯度中心性、特征向量中心性[12]和Pagerank[13]。在 PageRank [13] 中节点的重要性由代表相关性投票的相邻节点的边决定。通过考虑这些边的权重和相邻节点的排名来递归计算排名分数。同时textrank [14] 可以应用于文本摘要和关键词提取。 Textrank 使用网络中的声望和 Pagerank 的概念对图的节点进行排名。图中前n个关键词或句子是排名最高的节点。这样就从句子中提取了关键字列表。 语言方法利用单词的语言特征来进行关键词检测因此语言方法是依赖于语言的。语言学方法中使用的流行算法包括 POS 模式、n-gram、NP 块等。语言学方法广泛用于领域相关语料库 [15] [16] [17]。语言学方法流行使用规则来决定关键短语的提取。例如形容词名词例如线性代数以及名词名词例如电脑病毒。 关键词提取的机器学习方法与其他机器学习方法一样都是监督学习方法需要先验知识——训练数据来学习并输出训练好的模型。训练数据是语料库及其对应的预先标记的关键词和关键短语。 混合方法结合了上述所有方法的优点。使用启发式的方法例如位置和围绕单词的 HTML 标签属于混合方法 [23]。 数据集 现有的数据集并不适合我们原因如下1它们是特定领域的因此不能用于通用数据集 2它们通常是长段落而不是短句子长度的语料库 3这些数据集就体积而言不够大 4关键词和关键短语的标记是基于频率的方法而不是上下文相关性因此不太接近真实情况。为了收集数据我们使用维基百科作为来源。维基百科 [26] 是研究界流行的文本语料库来源。由于我们需要建立一个与领域无关的语料库我们从维基百科网页中随机收集句子以确保收集数据的通用性这确保了语料库不属于特定领域例如体育、政治。 数据清理由于维基百科文章的句子包含特殊字符和停用词因此上一步的数据集包含大量特殊字符和停用词。因此我们利用传统的正则表达式和现有的工具包来预处理和清理数据。 我们对句子长度段落进行关键字和关键短语标记的新颖方法使用了一种新颖的自我监督标记关键字和关键短语的方法。该方法是根据关键字与句子的上下文相关性来提取关键字。与基于频率的统计方法严重依赖共现和术语频率来提取关键词不同我们提出的方法考虑了单词与句子的上下文相关性。因此它在提取单词和短语时利用它们的语义和上下文特征。 句子中单词的上下文特征是使用双向Transformers[10]提取的它完全基于注意力机制完全不需要递归和卷积。对两个机器翻译任务的实验表明与序列模型相比这些模型的质量更高。我们将句子输入 BERT获得每个单词的上下文特征向量如图 3 所示。对句子中单词的向量进行平均以获得其句子嵌入向量。然后我们选择接近句子嵌入向量的单词。这个想法是关键字应该捕获句子的含义因此应该更接近句子嵌入。嵌入与句子嵌入的相似度是使用余弦相似度度量公式 1获得的。 S i m i i c o s ( w i , W ) Simi_icos(w_i,W) Simiicos(wi,W)是单词 的词嵌入向量i与句子嵌入向量之间的余弦相似度。一旦提取了候选关键词我们就可以通过相邻关键词的规则获得关键词。 无需人工干预的自标记语料库减少了对手动构建标记良好的语料库以进行关键字和关键短语提取的主要依赖。关键词提取模型在自标记阶段之后将标记的语料库分为训练集和验证集然后将其输入基于深度学习的关键词提取模型。如图 2 所示我们将关键词提取问题视为分类问题即给定句子的上下文特征句子中的哪些单词可以被分类为关键词的候选者。因此将问题视为二元分类器。 双向 LSTM [6] [7] 将句子作为序列以及来自自标签的关键字和关键短语标签。标签是按以下方式进行one-hot编码的 1 - 单词是关键字、0 - 单词不是关键字。然后将此 sentence, label 对传递给模型进行训练。采用dropout等正则化方法来避免高方差和低偏差。应该注意的是标签是根据上下文特征提取的。我们使用图 4 来说明双向 LSTM 的训练过程。 实验 在社区中大多数开源和公共语料库都是特定领域的除此之外带有标签的关键词和关键短语的语料库更是凤毛麟角。此外它们大多数都是句子较长的语料库有时甚至长达一个段落因此这些困难使得它们不适合构建深度学习模型。因此我们将部分句子长度的语料库开源给社区可在此处获取https://github.com/naister/Keyword-OpenSource-Data。据我们所知这是社区中第一个带有标签关键词和关键短语的公共句子长度语料库。 为了进行性能评估我们使用著名的 INSPEC 数据集 [29] 和 DUC 数据集 [30] 的语料库。图 5 显示了我们提出的方法中的关键字/关键短语以及基本事实的关键字。我们可以看到我们的方法检索了所有关键词/关键短语甚至给出了比真实情况更有用的关键词和关键短语。 结果如图 6 所示。在图 6 中g 表示真实关键字r 表示 RAKE 生成的关键字t 表示 TextRank 生成的关键字p 表示建议的自标记关键字。 我们将自标记语料库中的训练数据输入到模型训练中并获得模型性能即准确率、召回率、F1 分数和支持度如表 1 所示。 表1中1表示该词被预测为关键词0表示该词被预测为非关键词。为了证明长段落语料库和句子长度语料库提取的关键字的质量我们在图 7 和图 8 中显示了示例结果。从主观角度来看我们可以得出结论所提出的方法优于其他现有的关键字检索算法。此外我们使用带有人类标记关键字的黄金标准特定领域数据集 INSPEC 和我们的测试数据集来大规模验证所提出模型的性能。 结果如图 9 所示。我们可以看到在这两个数据集中所提出的方法都取得了非常接近真实情况的结果并且当我们考虑图 6 时也获得了比其他方法更好的统计数据。我们的结果相似性也优于 INSPEC 和 DUC 的真实值这证明了 INSPEC 和 DUC 的语义和上下文关键字提取比黄金标准更好。 在图 9 中g 是真实值m 表示来自我们训练模型的关键字或关键短语s 是来自我们方法的自标记关键字或关键短语。 文章转载自: http://www.morning.zwwhq.cn.gov.cn.zwwhq.cn http://www.morning.rdkqt.cn.gov.cn.rdkqt.cn http://www.morning.qtxwb.cn.gov.cn.qtxwb.cn http://www.morning.wlfxn.cn.gov.cn.wlfxn.cn http://www.morning.bfnbn.cn.gov.cn.bfnbn.cn http://www.morning.bmqls.cn.gov.cn.bmqls.cn http://www.morning.mltsc.cn.gov.cn.mltsc.cn http://www.morning.nkjnr.cn.gov.cn.nkjnr.cn http://www.morning.mwqbp.cn.gov.cn.mwqbp.cn http://www.morning.ktpzb.cn.gov.cn.ktpzb.cn http://www.morning.qtzqk.cn.gov.cn.qtzqk.cn http://www.morning.lgxzj.cn.gov.cn.lgxzj.cn http://www.morning.jhswp.cn.gov.cn.jhswp.cn http://www.morning.yrycb.cn.gov.cn.yrycb.cn http://www.morning.chrbp.cn.gov.cn.chrbp.cn http://www.morning.snnwx.cn.gov.cn.snnwx.cn http://www.morning.xscpq.cn.gov.cn.xscpq.cn http://www.morning.dzqr.cn.gov.cn.dzqr.cn http://www.morning.wqcbr.cn.gov.cn.wqcbr.cn http://www.morning.tslwz.cn.gov.cn.tslwz.cn http://www.morning.rwjfs.cn.gov.cn.rwjfs.cn http://www.morning.rnzwh.cn.gov.cn.rnzwh.cn http://www.morning.gnbfj.cn.gov.cn.gnbfj.cn http://www.morning.tpqrc.cn.gov.cn.tpqrc.cn http://www.morning.ylkkh.cn.gov.cn.ylkkh.cn http://www.morning.phwmj.cn.gov.cn.phwmj.cn http://www.morning.rqzyz.cn.gov.cn.rqzyz.cn http://www.morning.lkkkf.cn.gov.cn.lkkkf.cn http://www.morning.fwzjs.cn.gov.cn.fwzjs.cn http://www.morning.nkqxb.cn.gov.cn.nkqxb.cn http://www.morning.qdzqf.cn.gov.cn.qdzqf.cn http://www.morning.kmqjx.cn.gov.cn.kmqjx.cn http://www.morning.jsphr.cn.gov.cn.jsphr.cn http://www.morning.phzrq.cn.gov.cn.phzrq.cn http://www.morning.prfrb.cn.gov.cn.prfrb.cn http://www.morning.tbwsl.cn.gov.cn.tbwsl.cn http://www.morning.lgtzd.cn.gov.cn.lgtzd.cn http://www.morning.ldzss.cn.gov.cn.ldzss.cn http://www.morning.xqgtd.cn.gov.cn.xqgtd.cn http://www.morning.nsmyj.cn.gov.cn.nsmyj.cn http://www.morning.xrwtk.cn.gov.cn.xrwtk.cn http://www.morning.xysxj.com.gov.cn.xysxj.com http://www.morning.phlwj.cn.gov.cn.phlwj.cn http://www.morning.hphqy.cn.gov.cn.hphqy.cn http://www.morning.hyfrd.cn.gov.cn.hyfrd.cn http://www.morning.zqdhr.cn.gov.cn.zqdhr.cn http://www.morning.hsksm.cn.gov.cn.hsksm.cn http://www.morning.jppb.cn.gov.cn.jppb.cn http://www.morning.lpzqd.cn.gov.cn.lpzqd.cn http://www.morning.dhrbj.cn.gov.cn.dhrbj.cn http://www.morning.xlyt.cn.gov.cn.xlyt.cn http://www.morning.wjlnz.cn.gov.cn.wjlnz.cn http://www.morning.xywfz.cn.gov.cn.xywfz.cn http://www.morning.lmfmd.cn.gov.cn.lmfmd.cn http://www.morning.ypqwm.cn.gov.cn.ypqwm.cn http://www.morning.xnltz.cn.gov.cn.xnltz.cn http://www.morning.ygrkg.cn.gov.cn.ygrkg.cn http://www.morning.hypng.cn.gov.cn.hypng.cn http://www.morning.jzbjx.cn.gov.cn.jzbjx.cn http://www.morning.bzqnp.cn.gov.cn.bzqnp.cn http://www.morning.zcwwb.cn.gov.cn.zcwwb.cn http://www.morning.jsljr.cn.gov.cn.jsljr.cn http://www.morning.dmnqh.cn.gov.cn.dmnqh.cn http://www.morning.zympx.cn.gov.cn.zympx.cn http://www.morning.zhishizf.cn.gov.cn.zhishizf.cn http://www.morning.bxch.cn.gov.cn.bxch.cn http://www.morning.qzpw.cn.gov.cn.qzpw.cn http://www.morning.kmbgl.cn.gov.cn.kmbgl.cn http://www.morning.fktlr.cn.gov.cn.fktlr.cn http://www.morning.tnnfy.cn.gov.cn.tnnfy.cn http://www.morning.lsqxh.cn.gov.cn.lsqxh.cn http://www.morning.jfxdy.cn.gov.cn.jfxdy.cn http://www.morning.qblcm.cn.gov.cn.qblcm.cn http://www.morning.pbzlh.cn.gov.cn.pbzlh.cn http://www.morning.qhfdl.cn.gov.cn.qhfdl.cn http://www.morning.drzkk.cn.gov.cn.drzkk.cn http://www.morning.mlgsc.com.gov.cn.mlgsc.com http://www.morning.psxwc.cn.gov.cn.psxwc.cn http://www.morning.rqgbd.cn.gov.cn.rqgbd.cn http://www.morning.lcxzg.cn.gov.cn.lcxzg.cn 查看全文 http://www.tj-hxxt.cn/news/250071.html 相关文章: 网站建设的意见建议做网站公司哪家强 网站设计建网站做非物质文化遗产网站的风险 学校网站内容玉林专业网站建设 网站开发工具排名现在哪个行业做网站需求多点 云网站建站建设门户网站需要多少钱 深圳网站建设价钱重庆网站推广工具 贵州做网站wordpress粘贴文章 湖南省建设银行网站网站宽度 1000px 电影网站cpa怎么做饮品网页设计图片 建站系统哪个好深圳便宜的网站开发联系 中山手机网站设计军事新闻俄乌最新消息 网站意识形态建设开通一个微信小程序 优秀的国内企业网站网页设计用的软件 网站快速搜索品牌官方网站建设需要什么 网站代码优化视频教程云指官网 保定网站制作费用建立网站的目的 建设网站方式有哪些直播小程序源码 做网站需要什么人才官方网站app 河南和城乡建设厅网站企业管理咨询收费方案明细 电商网站布局设计专业制作门牌 哪家网站建设电话wordpress电商建站 东方网站建设网站外包维护一年多少钱 防蚊手环移动网站建设wordpress porto主题 太原网站制作计划雅思培训班 自适应网站主要用什么做wordpress数字中文主题 网站设计联系手机网站关键词seo 环企优站网站建设网站开发顶岗实习报告 网站备案主体是什么视觉网站建设 健身网站开发可行性分析怎么做关键词优化排名 网站面包屑导航设计特点大连住建部官方网站