当前位置: 首页 > news >正文

谷歌优化教程外贸seo网站搭建

谷歌优化教程,外贸seo网站搭建,东营网站关键字优化,深圳市龙岗网络科技有限公司自我介绍 做一个简单介绍#xff0c;酒架年近48 #xff0c;有20多年IT工作经历#xff0c;目前在一家500强做企业架构#xff0e;因为工作需要#xff0c;另外也因为兴趣涉猎比较广#xff0c;为了自己学习建立了三个博客#xff0c;分别是【全球IT瞭望】#xff0c;【…自我介绍 做一个简单介绍酒架年近48 有20多年IT工作经历目前在一家500强做企业架构因为工作需要另外也因为兴趣涉猎比较广为了自己学习建立了三个博客分别是【全球IT瞭望】【架构师酒馆】和【开发者开聊】有更多的内容分享谢谢大家收藏。企业架构师需要比较广泛的知识面了解一个企业的整体的业务应用技术数据治理和合规。之前4年主要负责企业整体的技术规划标准的建立和项目治理。最近一年主要负责数据涉及到数据平台数据战略数据分析数据建模数据治理还涉及到数据主权隐私保护和数据经济。 因为需要比如数据资源入财务报表另外数据如何估值和货币化需要财务和金融方面的知识最近在学习财务金融和法律。打算先备考CPA然后CFA如果可能也想学习法律备战律考。欢迎爱学习的同学朋友关注也欢迎大家交流。微信小号【ca_cea】 Python中隐私过滤器的实现该过滤器通过命名实体识别NER删除个人身份信息PII 这是我上一篇关于从文本中删除个人信息的文章的后续内容。 GDPR是欧盟制定的《通用数据保护条例》。其目的是保护所有欧洲居民的数据。保护数据也是开发人员的内在价值。通过控制对列和行的访问保护行/列数据结构中的数据相对容易。但是免费文本呢 在我上一篇文章中我描述了一个基于正则表达式用法和禁止词列表的解决方案。在本文中我们添加了一个基于命名实体识别NER的实现。完整的实现可以在github PrivacyFilter项目中找到。 什么是命名实体识别 根据维基百科NER是 命名实体识别NER也称为命名实体识别、实体分块和实体提取是信息提取的一个子任务旨在定位非结构化文本中提到的命名实体并将其分类为预定义的类别如人名、组织、位置、医疗代码、时间表达式、数量、货币值、百分比等。 因此这一切都是关于寻找和识别文本中的实体。一个实体可以是一个单词或一系列连续的单词。实体被分类到预定义的类别中。例如在下面的句子中发现了三个实体实体人“Sebastian Thrun”、实体组织“Google”和实体日期“2007”。 Example entity recognition (source: Spacy.io) NER是自然语言处理NLP人工智能领域的一个子集。该领域包含处理和分析自然语言的算法。当NER能够用自然语言识别实体时如果是个人、组织、日期或地点等与隐私相关的实体则可以从文本中删除这些实体。 使用NER过滤PII 首先我们需要一个NLP处理包。NLP包是按语言训练的因为所有语言都有自己的语法。我们正在与达奇合作所以我们需要一个了解这一点的人。我们将使用Spacy作为我们的隐私过滤器。 在Spacy网站上可以找到一个帮助安装Spacy的工具。在选择Python环境和语言后它会给出相应的命令来安装Spacy Spacy install tool (source: Spacy.io) 所选管道效率或精度决定了NER模型相对于尺寸和速度的精度。选择“效率”会产生更小、更快的模型但与“精度”相比精度更低。这取决于您的用例哪个模型更合适。为了发展我们选择使用效率模型。进行第一次净入学率分析 import spacy nlp spacy.load(nl_core_news_sm) doc nlp(Geert werkt sinds 2010 voor HAL.) for token in doc:print(token.text, token.pos_, token.ent_type_) Output: Geert PROPN PERSON werkt VERB sinds ADP 2010 NUM DATE voor ADP HAL PROPN ORG . PUNCT 在第2行导入Spacy包之后将使用Spacy.load方法加载模型。在这种情况下加载了Dutch的有效模型。模型由其名称指定该名称与上一步中用于下载模型的名称相同。要切换到准确的荷兰语模型请将“nl_core_news_sm”替换为“nl_core _news_lg”。对于上面的示例这将产生相同的输出。 快速、简单的性能测试表明加载小型模型大约需要2.0秒加载大型模型大约需要4.5秒。分析一个句子需要5.5毫秒而不是6.0毫秒。大型号似乎需要大约500 MB的额外内存。 词性POS标签的含义可以在这个网站上找到。例如它们是 Geert PROPN PERSON Proper noun, person werkt VERB Verb sinds ADP Adposition, case marking 2010 NUM DATE Numeral, date voor ADB Adposition HAL PROPN ORG Proper noun, organisation . PUNCT Punctuation 对于过滤PII我们对POS类型NUM和PROPN感兴趣。我们将用描述其实体类型的标签来替换POS文本元素。 import spacystring Geert werkt sinds 2010 voor HAL. print(string) nlp spacy.load(nl_core_news_sm) doc nlp(string)filtered_string for token in doc:if token.pos_ in [PROPN, NOUN, NUM]:new_token {}.format(token.ent_type_)elif token.pos_ PUNCT:new_token token.textelse:new_token {}.format(token.text)filtered_string new_token filtered_string filtered_string[1:] print(filtered_string) Output: Geert werkt sinds 2010 voor HAL. PERSON werkt sinds NUMBER voor ORG.代码的第一部分加载语言模型并将输入字符串解析为令牌列表doc。第8-16行中的循环通过迭代文档中的所有标记来构建过滤后的文本。如果令牌的类型为PROPN、NOUN或NUMBER则会用标记…替换其中标记等于Spacy识别的实体类型。所有令牌都通过前缀空间连接到新字符串。前缀是必需的因为标记化字符串已经删除了这些前缀。如果是标点符号则不添加前缀空格第12-13行。 在循环之后由于第11行或第13行的原因新字符串的第一个字符是一个空格因此我们需要删除这个空格第17行。这导致字符串中没有隐私信息。 它有多好 在上一篇文章中我们已经建立了一个基于禁止词列表的隐私过滤器。与NER相比该学徒需要更多的代码和精力。但它们的比较如何 NER要求语法正确的句子。在这种情况下即使姓名拼写错误也可以很好地替换隐私信息。NER优于禁言表。无论上下文如何禁词过滤器都会替换禁词。尤其是街道名称和城市名称的列表会导致大量不必要的删除词。例如植物名称、动物或城堡等项目等单词作为街道名称很常见将从文本中删除。这可能会删除许多不必要的单词从而降低生成文本的可用性。NER的表现会更好。如果文本在语法上不正确例如“你叫什么名字”问题的答案“Peter”将不会被NER过滤为正确。这些句子在聊天信息和对话记录中很常见。在这些情况下NER方法将失败因为NER算法无法用一个或几个词来确定这些答案的性质。 因此这完全取决于您的用例和所需的过滤级别。该组合确定最佳方法是使用禁止列表版本、NER版本还是甚至两者的组合。后者将结合这两种方法的优点但也有部分缺点。要找到最佳方法请使用数据的子集来筛选和测试不同的算法和/或组合以找到最适合的算法。 将NER与禁止词列表FWL进行比较的一些示例 INPUT: Geert werkt sinds 2010 voor HAL. NER : FILTERED werkt sinds FILTERED voor FILTERED. FWL : FILTERED werkt sinds FILTERED voor HAL. INPUT: Heert werkt sinds 2010 voor HAL. NER : FILTERED werkt sinds FILTERED voor FILTERED. FWL : Heert werkt sinds FILTERED voor HAL. INPUT: Wat is je naam? Geert. NER : Wat is je naam? Geert. FWL : Wat is je naam? FILTERED. INPUT: Geert kijkt naar de duiven op het dak. NER : FILTERED kijkt naar de duiven op het dak. FWL : FILTERED kijkt naar de FILTERED op het dak. 为了便于比较所有标签如PERSON都替换为通用标签FILTERED 第一个示例显示tat FWL无法删除公司名称因为它没有公司名称列表。NER算法在句子上确定了“HAL”是一个名词更具体地说是一个组织。第二个例子表明NER可以处理名称中的类型错误因为它查看句子的结构而FWL不将“Heert”识别为名称。名称列表只包含拼写正确的版本。第三个例子表明NER需要语法正确的句子来识别“Geert”这个名字。这可能是一次谈话的记录也可能是聊天中的互动。它展示了NER如何在书面语言方面表现良好但在理解口语方面存在困难。在最后一个例子中FWL删除了“duiven”一词因为它不仅描述了动物duiven在荷兰语中是鸽子的意思而且还是一个城市的名字。 privacy filter code on Github 包含这两种方法在初始化过程中可以选择NER方法或FWL方法。我们在本文中没有涉及正则表达式但选择NER方法也会执行正则表达式NER无法识别和替换URL等。它还包含了一些使用和过滤的示例文本以了解两种方法在现实生活中的美国案例中的差异。 最后一句话 本文和前一篇文章描述了删除文本中个人信息的两种方法。这两种方法都有其优点和缺点不可能为所有用例选择一种方法。删除更多的隐私信息也会导致删除更多的非隐私信息从而降低过滤文本的价值。NER在删除已识别的隐私信息方面更准确但需要格式良好的句子才能操作。为了最大限度地提高安全性甚至可以将这两种方法结合起来。请随意在Github上尝试实现。 我希望你喜欢这篇文章。想要获得更多灵感请查看我的其他文章 本文【自然语言处理】用Python从文本中删除个人信息-第二部分 | 开发者开聊 欢迎收藏  【全球IT瞭望】【架构师酒馆】和【开发者开聊】.
http://www.tj-hxxt.cn/news/143170.html

相关文章:

  • 网站开发基础教程图书馆评估定级关于网站建设标准
  • 安阳历史网站关键词优化代码
  • 四川建设学网官方网站登录网站建设费会计分录
  • 手机网站建设一般要多少钱做简历的网站viso
  • 一般做网站需要的js有哪些怎样建设网站?(怎样注册域名?如何选择主机?网站应有哪些功能模块
  • 网站建设方案项目书wordpress调用一篇文章
  • 做网站推广需要什么专业长沙品牌网站建设
  • 咸宁网站建设公司电子商务公司图片
  • 网站建设公司计划书校园网站建设er模型
  • 可以做网站的电脑软件大学做网站有哪些
  • 网站设计论文的参考文献网站建设技术app下载
  • 网站特效网濮阳信息港网首页
  • 住房城乡建设部 网站网站开发颜色
  • 泰州专业网站建设公司比wordpress好的工具
  • 崇左北京网站建设如何查询网站的注册信息查询
  • 上海网站建设300二手房出售信息
  • 多说评论插件对网站优化色盲眼中的世界
  • wordpress农业站模板龙岩网站建设运营
  • 如何用付费音乐做视频网站网站基础建设英文
  • 汕头企业网站公司网站建设摘要
  • 建网站好国外最开放的浏览器
  • qt做网站公司注册地址可以跨市变更吗
  • 网站能为智慧城市建设作出什么贡献wordpress建电影网站
  • 万户网站后台控制中心浙江小九天建设集团网站
  • 企业网站开发与设计论文在域名做网站
  • 网站服务器连接被重置搭建小程序多少钱
  • 郑州模板网站设计哪家便宜创业服务网站建设方案项目书
  • 做网站是怎么赢利的金华专业的网站建设
  • 北京建设工程质量协会网站潍坊mip网站建设
  • 免费网站免费蓝海电商怎么做