LDA:Latent Dirichlet Allocation 是一个很著名的文本模型,最初是在2003年被一群大牛提出的,包括David M.Blei 、Andrew Y.Ng等。和之前的pLSA文本模型相比,LDA算是贝叶斯观点的pLSA,所谓贝叶斯观点,就是什么都是不确定的,不像pLSA中的p(z|d),虽然是个隐变量,但是还是确定的值,然而对于贝叶斯学派观点,其概率是不确定的,该概率符合某种分布,在LDA中是服从Dirichlet分布。在【1】这篇论文中,作者说了pLSA不是well-defined的生成模型(不太理解)。
对于LDA,因为我本身不是搞主题模型的,而是想利用主题模型可以压缩文档特征向量的维度,从而生成文本分类的文档向量。因为个人数学功底不是很扎实,另外作为一个科研能力一般的渣硕,理解LDA确实有难度,这几天参看了 “LDA数学八卦”以及Gibbs采样的一些知识,本来想彻彻底底搞懂的,无奈看了好几天,也只能看出个大概轮廓,本文不打算阐述LDA高深的数学原理,各位可以参看LDA论文原文和下面【2】【3】几个参考文献。
对于LDA,因为各个大神的博客已经很详细了,July大神就专门撰文写过LDA,写的详细深入,对于July博文中间的数学推导,我实在是无爱,不过文末的作者的一句话倒是给我很大的启发:“LDA其实就是贝叶斯观点的pLSA”。对于LDA去粗取精,其实就是这个道理。所以这篇博文主要是讲讲我对LDA的一些思想的体会,而不是着重于具体过程。
众所周知,在这个领域,存在两个学派,频率派和贝叶斯派。频率派认为所有的事情的概率都是确定的(即使未知)。但是对于贝叶斯派,其主要的观点就是所有的事情都不确定,任何事情都存在一个分布。对于LDA,其就认为一篇文档的主题分布是不确定的,其分布符合一个分布,称之为dirichlet分布,同样其认为一个主题下面的词语分布也是不确定的,其分布也符合dirichlet分布。知道了这两点,明白了这两点,LDA模型结构也就基本理解了。看下面的图:
上图是LDA的经典模型,用平白的话说,LDA的一篇文章的生成过程是:
上图是LDA数学八卦中的LDA模型介绍,LDA模型的文档生成过程就是这样。
相比于pLSA,其不过是为p(z|d)和p(w|z)增加了一个Dirichlet分布,但是结果会比pLSA模型强大的多,当然其数学的复杂度也增长了不止一个档次。
LDA虽然推导过程复杂,但是其结果却非常优雅,这也是LDA神奇之处,用最简单的结论打败你。这也是数学的优美之处(虽然我对数学并不是很有感觉)。
【1】Latent Dirichlet Allocation.David M.Blei ,Andrew Y.Ng
【2】LDA数学八卦,靳志辉
【3】Gibbs Sampling for the Uninitiated
相关推荐
Tobit与Probit模型Stata实现代码-最新发布.zip
Jupyter-Notebook
红警单机版(单机游戏)
SwiftUI编写的贪吃蛇小游戏讲解
1996-2020年中国文化旅游统计年鉴-最新数据发布.zip
Jupyter-Notebook
omwfa1hxz_1.apk
2001-2023年上市公司大数据应用指数数据集(6.1万样本,5600家企业,含原始数据、代码及结果,最新).zip
Jupyter-Notebook
Typora(version 1.2.3)导出 pdf 自定义水印的 frame.js 文件,详情可以查看:
量产部落sm2263xt开卡工具,支持b16b17颗粒
中国1公里分辨率月降水数据-最新全集.zip
云平台VPC.vsdx
CPA注会考试最新教材资料-最新发布.zip
分省最低工资标准面板数据最新集.zip
内容概要:本文档是一份详尽的Java面试题集,涵盖了许多常见的Java面试问题及详细的解答。内容涉及Java基础语法、面向对象编程、集合框架、网络编程、Spring框架等多个方面。每个问题不仅提供了答案,还解释了其背后的原理和技术细节。 适合人群:即将参加Java岗位面试的技术人员,特别是工作经验1-3年的软件工程师。 使用场景及目标:适用于准备Java面试,加深对Java核心技术的理解和掌握。通过练习这些问题,帮助面试者更好地理解和应对面试官的问题。 阅读建议:建议结合实际项目经验来阅读和练习这些问题,以便更好地理解和应用所学的知识点。同时,对于复杂的问题,可以通过编写代码来验证答案的正确性和理解深度。
层次分析法与熵值法工具包+数据案例+代码-最新.zip
音乐产品购物网站 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B
NASA DEM中国30省高分辨率地形数据-精心整理.zip
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。