算命网站建设,wordpress 加入js,保护环境网站模板,工程建设施工合同AI目录#xff1a;sheng的学习笔记-AI目录-CSDN博客
基础知识
什么是话题模型(topic model)
话题模型(topic model)是一族生成式有向图模型#xff0c;主要用于处理离散型的数据#xff08;如文本集合#xff09;#xff0c;在信息检索、自然语言处理等领域有广泛应用…AI目录sheng的学习笔记-AI目录-CSDN博客
基础知识
什么是话题模型(topic model)
话题模型(topic model)是一族生成式有向图模型主要用于处理离散型的数据如文本集合在信息检索、自然语言处理等领域有广泛应用。
隐狄利克雷分配模型Latent Dirichlet Allocation,简称LDA是话题模型的典型代表。
使用场景
Topic Model是一种自然语言处理技术它可以从大量的文本中发现潜在的主题。这种模型的应用范围非常广泛特别是在新闻推荐和商品分析领域。通过主题模型可以对语料库中的每篇新闻进行主题分析根据浏览者的已看新闻推荐同主题的新闻或者分析商品的评论挖掘购买者对商品不同维度的意见和评价。此外主题模型还在社交倾听和文本挖掘方面发挥着重要作用帮助分析大量文本数据提取关键信息和主题为决策提供支持。
具体来说主题模型的应用场景包括
新闻推荐通过对语料库中的每篇新闻进行主题分析可以根据用户的阅读历史推荐相同或相似主题的新闻。商品分析分析商品的评论和反馈挖掘消费者对商品不同维度的评价和意见帮助企业了解市场需求和改进方向。社交倾听通过分析社交媒体上的大量文本数据发现公众对特定话题或事件的看法和态度为企业或个人提供市场趋势和公众情绪的洞察。文本挖掘在大量的文档中提取有用的信息如关键词、主题等用于进一步的数据分析和知识发现。
综上所述AI Topic Model通过从文本中发现潜在的主题为新闻推荐、商品分析、社交倾听和文本挖掘等领域提供了强大的支持帮助企业和个人更好地理解和利用大量的文本数据
基础概念
词(word)、文档(document)和话题(topic)。
“词”是待处理数据的基本离散单元例如在文本处理任务中一个词就是一个英文单词或有独立意义的中文词。“文档”是待处理的数据对象它由一组词组成这些词在文档中是不计顺序的例如一篇论文、一个网页都可看作一个文档这样的表示方式称为“词袋”(bag-of-words)。数据对象只要能用词袋描述就可使用话题模型。“话题”表示一个概念具体表示为一系列相关的词以及它们在该概念下出现的概率。 Unigram Model
流程 文档生成算法 pLSA Model
基础知识
1Unigram Model模型过于简单。事实上人们写一篇文章往往需要先确定要写哪几个主题。
如写一篇计算机方面的文章最容易想到的词汇是内存、CPU、编程、算法等等。之所以能马上想到这些词是因为这些词在对应的主题下出现的概率相对较高。
因此可以很自然的想到一篇文章由多个主题构成而每个主题大概可以用与该主题相关的频率最高的一些词来描述。
2主题 topic表示一个概念。具体表示为一系列相关的词以及它们在该概念下出现的概率。
与某个主题相关性比较强的词在该主题下出现概率较高与某个主题相关性比较弱的词在该主题下出现概率较低 文档生成算法 模型原理 参数求解
pLSA 模型由两种参数求解方法矩阵分解、EM 算法。
矩阵分解 EM 算法 EM算法步骤 LDA Model
基础知识 因此 LDA 模型是pLSA 模型的贝叶斯版本。 文档生成算法 模型原理 主题生成过程 单词生成过程 联合概率 后验概率 模型求解
LDA的求解有两种办法变分推断法、吉布斯采样法。
吉布斯采样 模型训练 参考文章
18.主题模型 - 一、Unigram Model - 《AI算法工程师手册》 - 书栈网 · BookStack
18.主题模型 - 二、pLSA Model - 《AI算法工程师手册》 - 书栈网 · BookStack
18.主题模型 - 三、LDA Model - 《AI算法工程师手册》 - 书栈网 · BookStack
机器学习 书