当前位置: 首页 > news >正文

义乌外贸建网站珠峰网站建设

义乌外贸建网站,珠峰网站建设,营销网络的建设,网站app制作TF#xff08;Term Frequency#xff09;和TF-IDF#xff08;Term Frequency-Inverse Document Frequency#xff09;都是用于文本挖掘和信息检索的统计方法#xff0c;用于评估一个词在文档或文档集合中的重要性。 一.TF#xff08;Term Frequency#xff09; 1.定义…TFTerm Frequency和TF-IDFTerm Frequency-Inverse Document Frequency都是用于文本挖掘和信息检索的统计方法用于评估一个词在文档或文档集合中的重要性。 一.TFTerm Frequency 1.定义 词频Term FrequencyTF衡量一个词在一个文档中出现的频率。通常TF值越高表示该词在文档中越重要。 2.计算公式 TF ( t , d ) 词t在文档d中出现的次数 文档d中所有词的总数 \text{TF}(t, d) \frac{\text{词t在文档d中出现的次数}}{\text{文档d中所有词的总数}} TF(t,d)文档d中所有词的总数词t在文档d中出现的次数​ 3.特点 局部性TF只考虑单个文档不考虑该词在整个文档集合中的分布情况。 简单性TF计算简单只需统计词在文档中的出现次数。 二.TF-IDFTerm Frequency-Inverse Document Frequency 1.定义 词频-逆文档频率Term Frequency-Inverse Document FrequencyTF-IDF是一种衡量词重要性的方法综合考虑了词在单个文档中的频率和词在整个文档集合中的稀有程度。 2.计算公式 TF-IDF ( t , d , D ) TF ( t , d ) × IDF ( t , D ) \text{TF-IDF}(t, d, D) \text{TF}(t, d) \times \text{IDF}(t, D) TF-IDF(t,d,D)TF(t,d)×IDF(t,D) 其中 IDF ( t , D ) log ⁡ ( 1 N 1 包含词t的文档数 ) \text{IDF}(t, D) \log \left( \frac{1N}{1 \text{包含词t的文档数}} \right) IDF(t,D)log(1包含词t的文档数1N​) N N N是文档集合中的文档总数。 包含词t的文档数 \text{包含词t的文档数} 包含词t的文档数是词 t \text{t} t在文档集合 D D D中出现的文档数。 3.特点 全局性TF-IDF考虑了词在整个文档集合中的分布情况通过IDF降低那些在很多文档中都出现的常见词的重要性。 准确性TF-IDF在衡量词的权重时更为准确因为它既考虑了词在单个文档中的频率TF也考虑了词在整个文档集合中的稀有程度IDF。 三.异同点 1.相同点 目的两者都用于衡量词在文档中的重要性。 应用场景广泛应用于信息检索、文本挖掘、文本分类等领域。 2.不同点 计算方式 TF只计算词在单个文档中的频率。 TF-IDF计算词在单个文档中的频率并结合整个文档集合中的稀有程度。 结果影响 TF高频词会有较高的权重但无法区分常见词和重要词。 TF-IDF通过IDF调整高频但常见的词如的、是会被赋予较低的权重而那些在少数文档中出现的词会有较高的权重。 四.例子说明 1.文档集合例子 文档1这是一篇关于自然语言处理的文章。 文档2自然语言处理是人工智能的一个分支。 文档3机器学习也是人工智能的一个重要领域。 2.TF的计算过程 文档1中出现1次文档总词数为7故TF(自然, 文档1) 1 7 ≈ 0.14 \frac{1}{7} \approx 0.14 71​≈0.14 文档2中出现1次文档总词数为8故TF(自然, 文档2) 1 8 0.125 \frac{1}{8} 0.125 81​0.125 文档3中未出现故TF(自然, 文档3) 0 3.IDF的计算过程 包含词自然的文档数为2总文档数为3。使用平滑IDF公式 IDF ( 自然 , { 文档 1 , 文档 2 , 文档 3 } ) log ⁡ ( 3 1 2 1 ) log ⁡ ( 4 3 ) ≈ 0.124 \text{IDF}(自然, \{文档1, 文档2, 文档3\}) \log \left( \frac{3 1}{2 1} \right) \log \left( \frac{4}{3} \right) \approx 0.124 IDF(自然,{文档1,文档2,文档3})log(2131​)log(34​)≈0.124 4.TF-IDF的计算过程 对于文档1TF-IDF(自然, 文档1, {文档1, 文档2, 文档3}) 0.14 * 0.124 ≈ 0.017 对于文档2TF-IDF(自然, 文档2, {文档1, 文档2, 文档3}) 0.125 * 0.124 ≈ 0.016 对于文档3TF-IDF(自然, 文档3, {文档1, 文档2, 文档3}) 0 * 0.124 0 TF和TF-IDF在衡量词在文档中的重要性时TF简单直观但未考虑词在整个文档集合中的分布TF-IDF则综合考虑了词在单个文档中的频率和整个文档集合中的稀有程度因而更为准确和有效。
http://www.tj-hxxt.cn/news/130887.html

相关文章:

  • 在网站做推广要钱吗wordpress Nirvana
  • 单位还能建设网站吗哪里做网站域名不用备案
  • 中小网站公司做的推广怎么样祥符网站建设
  • a站怎么进哔哩哔哩网站开发图片
  • 辽宁营销型网站建设如何注册自己的工作室
  • 手机版网站开发框架开题报告旅游网站建设
  • 宁波seo网站排名优化公司网站建设公司济宁
  • 最好的网站建设哪家好网站建设设计咨询
  • 晋城 网站建设wordpress主题上传失败
  • 哈尔滨创意网站建设如何改wordpress的title
  • 怎么编辑网站后台百度云搜索引擎搜索
  • 会计做帐模板网站营销型网站价格
  • 外贸电商做俄罗斯市场网站常熟做网站价格
  • 网站制作知识可以做视频推广的网站吗
  • 做钻石的网站后台网站怎么做视频
  • 雄安专业网站建设方案内蒙建设工程信息网站
  • 房产中介网站建设管理wordpress发不文章不按顺序怎么办
  • 做国际贸易网站要什么条件wordpress制作小说网站模板
  • 航天桥网站建设七牛 wordpress 插件
  • 旅游网站的建设的意义wap 网站开发
  • 网易考拉的网站建设做网站网站关键词是什么
  • 团购网站经营模式工业产品外观设计公司
  • 网站倍攻击网站建设实训不足
  • 网站建设功能评价指标wordpress网站设置关键词设置
  • 前段模板的网站在线优化网站
  • 网站 成本建设企业网站的好处是什么
  • 公司网站建设有哪些公司可以做麦包包网站建设特点
  • 制作公司网站用什么软件自媒体app推广是做什么的
  • 图文店做网站有用处吗新闻稿
  • 网站建设以及seo化妆品应如何网站建设定位