宣武上海网站建设,河北响应式网站建设,淘宝搜索框去什么网站做,宝应seo目录 1 词袋模型基本概念
2 词袋模型的表示方法
2.1 三大方法
1 独热表示法#xff08;One-Hot#xff09;
2 词频表示法#xff08;Term Frequency, TF#xff09;
3 词频-逆文档频率表示法#xff08;TF-IDF#xff09;
2.2 例子 1 词袋模型基本概念
词袋模型One-Hot
2 词频表示法Term Frequency, TF
3 词频-逆文档频率表示法TF-IDF
2.2 例子 1 词袋模型基本概念
词袋模型BowBag of Words不考虑文本中词与词之间的上下文关系仅仅只考虑所有词的权重与词在文本中出现的频率有关类似于将所有词语装进一个袋子里其中每个词的出现都是独立的不依赖于其他词是否出现。这种模型的主要目的是将文本转换为一个向量其中向量的每个维度代表一个词而该维度的值则表示该词在文本中出现的频率。
词袋模型的主要特征是每个词的出现都是独立的相当于每次随机试验为随机从词表中抽取一个单词进行n次独立重复试验因此适合使用多项式朴素贝叶斯
2 词袋模型的表示方法
2.1 三大方法
1 独热表示法One-Hot
One-Hot表示法的数值计算规则为词语序列中出现的词语的数值为1词语序列中未出现的词语的数值为0。其数学表达式为 2 词频表示法Term Frequency, TF
TF表示法的数值计算规则为词语序列中出现的词语的数值为该词语在所在文本中的频次词语序列中未出现的词语的数值为0。其数学表达式为 其中表示词语表示词语在所在文本出现的次数。
3 词频-逆文档频率表示法TF-IDF
TF-IDF的核心思想是
如果某个词语在文本中频繁出现则认为该词语很重要如果某个词语在文本中频繁出现但该词语在每篇文档都出现则认为该词语不是特别重要比如“的”字每篇文章都出现但是重要性不大
TF-IDF表示法的数值计算规则为词语序列中出现的词语的数值为词语在所在文本中的频次乘以词语的逆文档频率词语序列中未出现的词语的数值为0。其数学表达式为 其中表示词语表示词语在所在文本出现的次数。
的计算公式为 当分母越大越小则说明其越不重要为了防止分母为0对进行改进如下 2.2 例子
已知有下边的几篇英文文本请分别用词袋模型的三种方法来向量化表示每篇文本。
文档ID文档词列表1Chinese Beijing Chinese2Chinese Chinese Shanghai3Chinese Macao4Tokyo Japan Chinese
第一步构建词袋
第二步对于每一篇文本计算词袋中各词语的数值得到该篇文本的向量
One-Hot表示法 根据上述公式可得
BeijingChineseJapanMacaoShanghaiTokyoChinese Beijing Chinese110000Chinese Chinese Shanghai010010Chinese Macao010100Tokyo Japan Chinese011001
词频表示法 根据上述公式可得
BeijingChineseJapanMacaoShanghaiTokyoChinese Beijing Chinese120000Chinese Chinese Shanghai020010Chinese Macao010100Tokyo Japan Chinese011001
TF-IDF表示法 使用改进后的如下 计算过程如下 因此有
BeijingChineseJapanMacaoShanghaiTokyoChinese Beijing Chinese1*1.9161.9162*120000Chinese Chinese Shanghai02*12001*1.9161.9160Chinese Macao01*1101*1.9161.91600Tokyo Japan Chinese01*111*1.9161.916001*1.9161.916