做网站 php j2ee官方网站营销
前情提要
BoW (Bag of Words) 演算法
假设现在有M篇文章,一共使用了N个词汇(term),我们就可以将文章转换成以下类型的矩阵,其中column1和row1的“10”表示“文章1”中出现了10次“词汇1”,“文章1”也可以用向量 [10, 0, …, 2] 来表示,这就是 BoW (Bag of Words) 演算法。它的优点是非常简单,但存在两个明显问题。
表格1:
2个问题:
- 由于每篇文章总词汇数不同。如
表格1
所示:词汇2
在文章2
中出现8次
,在文章M
中出现2次
,8 > 2
,可能被认为词汇2
对于文章2
比较重要,对于文章M
比较不重要;换个角度来看,文章2
有400个
词汇,文章M
只有50个
词汇,2/50=0.04 > 8/400=0.02
,这样看来,词汇2
反而是对于文章M
比较重要。 - 惯用词对文章分析影响很大。如:
词汇N
在每篇文章都出现好多次,可能是the
之类的惯用词,文章M
的向量可能被这个the
所主导,但其实the
这个字并没有什么特殊的意义。
为了解决以上两个问题,TF-IDF演算法应运而生。顾名思义,它包含两部分:词频(Term Frequency,TF)和逆向文件频率(Inverse Document Frequency,IDF)。
进入正题
TF-IDF(Term Frequency - Inverse Document Frequency)演算法
。。。
。。。
主要内容出处如下:
1. [文件探勘]TF-IDF 演算法:快速計算單字與文章的關聯
2.