`

【zz】基于LDA的Topic Model变形

阅读更多

最近研究LDA挖掘隐含topic来对短文本分类,没想到师弟fandywang转载了一篇文章,可以作为一个很好的参考:

 

 

最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:

David M. Blei

LDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:

  • J. Chang and D. Blei. Relational Topic Models for Document Networks . Artificial Intelligence and Statistics , 2009. [PDF ]

       基本LDA模型,当然假设文档之间是可交换的,那么在原始的LDA中文档之间其实是认为条件独立的。而在实际情况中,往往不是这个样子的,文档间也许会存 在“social network”的这样的网络性质。如何结合内容和“social network”这两个特征也许是一个非常有意思的话题。这篇论文就是给出了一个解决方法。它为两个文档之间增加了一个二元随机变量,根据其内容特征,来 刻画这种隐含的链接关系。

       关于显示的链接关系是过去今年内,人们追逐研究的对象,进而产生PageRank、HITS等等一大批优秀的链接关系算法。那么如何利用隐含的链接呢?什 么是隐含的链接呢?一个最简单的隐含链接就是基于内容相似度构建的图。这个被人们用的不亦乐乎,比如在文摘中的LexRank等。O Kurland在SIGIR中发了两篇大概都是类似的文章,本质思想貌似就是在利用内容之间的“超链接”。
       另外一个比较新颖的研究点,就是如何基于“social network”来挖掘内容特征? Mei Qiaozhu的一篇论文就是利用“social network”的网络结构特征最为规则化因子,重新修正了原始的PLSA模型。想法非常的新颖。

  • D. Blei and J. Lafferty. Topic Models. In A. Srivastava and M. Sahami, editors, Text Mining: Theory and Applications . Taylor and Francis, in press. [PDF ]

    这篇论文是一篇综述性的大制作的论文,Blei在里面深入浅出的介绍了什么是Topic Model以及他早期的一些Topic Model的变形。值得大家去阅读。

  • J. Boyd-Graber and D. Blei. Syntactic Topic Models . Neural Information Processing Systems , 2009. [PDF ] [Supplement ]

   原始的LDA考察两个词只是基于共现的角度。而实际情况中,这种共现往往是不能够精确地刻画一些句子结构信息或者说词义信息。如何把这种信息引入。考虑 更深层的生成模型是目前一个热点。这篇论文着眼于一个句子的句法分析的生成过程,它认为每个句子的生成都是基于“parse tree”的,整个概率生成过程完全附着在“parse tree”上了。并且每个句子内,不同的词都有可能去选择更适合自己的Topic。

  • D. Blei, J. McAuliffe. Supervised topic models . In Advances in Neural Information Processing Systems 21, 2007. [PDF] [digg data ]

   现如今,网络数据除了纯内容外,往往还有其他一写辅助信息,如用户对于某博文的评价或者说用户对于某商品的评价。一个最典型的例子,就是说在当当买书 后,你可以给该书的质量进行打分:5星代表最好,4星代表比较好,。。。依次类推。那么如何把这些信息加入原始的LDA中呢? Blei为其引入了一个response变量因子,该因子条件依赖于该文档的topic distribution。

    如何把ratable information和内容有机地结合起来也是最近的一个研究热点。大多数方法还都是,建立一个ratable response variable,然后该变量条件依赖于内容或者说Topic信息。

  • J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation . In Empirical Methods in Natural Language Processing, 2007. [PDF]

    这篇论文对应的一个大背景是把Topic Model应用到自然语言处理中,具体内容我没太看,主要是结合了WordNet的结构特征,在此基础上产生的图模型。
    此外的一些工作还有把Topic Model用来文摘和词性标注中的。应用到这些问题的两个主要思路:第一个就是用Topic Model去学习出一些compact features,然后在次基础上利用分类器等机器学习方法;另外一种就是利用原始NLP问题的一些结构信息,比如刚才所说的WordNet中的网络结 构,在这个结构特征中推导出整个图模型的概率生成过程。

  • D. Blei and J. Lafferty. A correlated topic model of Science . Annals of Applied Statistics. 1:1 17–35. [PDF ] [shorter version from NIPS 18] [code ][browser ]

   还没有认真看,这个其实打破了原来topic之间的可交换性。

  • D. Blei and J. Lafferty. Dynamic topic models . In Proceedings of the 23rd International Conference on Machine Learning, 2006. [PDF ]

   也没有仔细看,把Topic Model和时间维度结合了起来。Mei Qiaozhu也有一篇是研究话题内容随着时间变化的论文,但是是基于PLSI和HMM来完成的。

  • T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax . In Advances in Neural Information Processing Systems 17, 2005. [PDF ]
   这篇论文是一篇非常优秀的论文,开篇详细地叙述了词的不同功能分类,也叫做HMM-LDA模型。正如每个人存在都有其社会意义,那么词存在对于文本语义 的表述也有着不同的角色。作者把词分为了两大功能:第一个就是semantic功能,也就是之前我们所有的Topic word;另一个功能就是说语法功能,也就是说这些词的存在是为了让整个句子的生成过程看起来更像一个完整体或者说更符合语言规范。T. Griffiths和M. Steyvers是两个很优秀的学者,他们开发了topic model工具包,并且也有一堆的牛论文。

  • D. Blei. Probabilistic Models of Text and Images . PhD thesis, U.C. Berkeley, Division of Computer Science, 2004. [PDF ]
   Blei的博士论文,我至今还没有看完,因为一直纠结在那个Varitional inference的推导。自己责备一下自己。

  • D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation . Journal of Machine Learning Research, 3:993–1022, January 2003. [A shorter version appeared in NIPS 2002]. [PDF ] [code ]
        LDA的第一篇文章,不算很好读懂。初次阅读时,一般会遇到可交换性、variational inference、simplex等等细节问题。经典中的经典。

  • D. Blei and P. Moreno. Topic segmentation with an aspect hidden Markov model . In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 343–348. ACM Press, 2001. [PDF ]
   SIGIR中的一篇关于分段的论文。其实分段这个事情在现实中需求量比较大,但是成熟的工具包并不多,或者我不知道。比较好的成熟的算法一般还是基于语 义斜率的变化来计算的。在次召唤下懂这方面的大牛推荐几个好用的工具。与分段关联很紧密的一个问题就是网页正文抽取,同样也是这个问题,发论文的多,但是 实际release出来代码的很少。比较著名的,如VIPS,但是我没有用过。昨天发现VIPS的作者原来也是一个巨牛的中国人,Deng Cai。之前是清华学生,现在师从Jiawei Han,各种牛会议和牛期刊发了N多的文章。在此膜拜一下。

总结

       目前我能看懂的Topic Model的文章还是很少一部分,自己的概率和数学基础太差,对于posterior inference往往无能为力,这也是下一步我的目标。并且自己其实也不太会创新,下一步也是要在这个方面多下功夫,争取应用Topic Model来解决自己的实际问题。
分享到:
评论

相关推荐

    LDA topicmodel 初学者最详细的中英文资料

    3. **推荐系统**:用户兴趣的分析和推荐可以基于LDA生成的主题。 4. **社交网络分析**:研究用户的话题偏好,揭示社区结构。 5. **新闻聚合**:发现热点话题,对新闻进行聚类。 总之,LDA主题模型是理解和挖掘大量...

    topic model

    lda topic model blei

    【图像识别】基于LDA实现人脸识别matlab代码.zip

    【图像识别】基于LDA(线性判别分析)实现人脸识别是计算机视觉和机器学习领域的一个重要应用。在本项目中,我们利用Matlab作为主要的编程工具来完成这一任务。Matlab是一款强大的数学计算软件,它提供了丰富的...

    基于LDA的主题分析

    基于LDA的主题分析 本文主要阐述了基于LDA模型的主题文本分析,涵盖了LDA的基本原理、基于LDA模型的主题文本分析、实验设计、Gibbs抽样等方面的知识点。 第一,LDA模型的基本原理:LDA模型是一种基于概率论的主题...

    基于LDA的人脸识别系统

    《基于LDA的人脸识别系统详解》 人脸识别技术在当今智能科技领域中占据了重要的地位,广泛应用于安防、门禁、考勤、社交网络等多个场景。其中,线性判别分析(Linear Discriminant Analysis, LDA)是一种常用的人脸...

    Topic Model using LDA

    LDA是一种基于概率的混合模型,广泛应用于自然语言处理、信息检索和文本挖掘领域。 LDA的基本思想是假设每篇文档都是由多个主题混合生成的,而每个主题又是一个词的概率分布。在LDA模型中,文档被看作是主题的...

    【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析

    《Python实现基于LDA主题模型进行电商产品评论数据情感分析》 该项目实战旨在利用Python编程语言,结合LDA(Latent Dirichlet Allocation)主题模型,对电商产品评论数据进行深度的情感分析。LDA是一种无监督机器...

    基于LDA的微博热搜主题分析 技术:Python+LDA+网络爬虫 用途:爬取微博热搜对主题进行分析

    本文基于LDA模型,对微博热搜进行主题分析与研究。首先,对微博数据进行预处理,然后用LDA对处理后的数据进行建模,并利用PyLDAVis对主题展示。最后,我们对所得到的主题进行了分析和解释,探讨了微博热搜背后的社会...

    基于LDA的用户兴趣发现算法

    基于LDA的Topic Model, 能够处理中文, 获取用户对不同主题的兴趣分布。 LDA及其并行化在海量数据分析中的应用越来越广。 数据格式: #* 微博标题 #@ weibo作者 #! 分好词的微博内容(可用FudanNLP进行分析和标注...

    一种新颖的基于LDA的人脸识别方法(PDF格式)

    ### 一种新颖的基于LDA的人脸识别方法 #### 摘要与研究背景 本文提出了一种结合离散余弦变换(Discrete Cosine Transform, DCT)与线性判别分析(Linear Discriminant Analysis, LDA)的人脸识别新方法。该方法...

    一种用于视频推荐的基于LDA的深度学习模型.pdf

    一种用于视频推荐的基于LDA的深度学习模型.pdf

    基于LDA的人脸识别matlab源代码

    人脸识別技术是一种广泛应用的身份验证方法,而线性判别分析(LDA)在其中扮演了重要的角色。本文将深入探讨LDA在人脸识别中的应用,以及如何使用MATLAB实现这一过程。 LDA(Linear Discriminant Analysis)是一种...

    基于LDA的轨道交通信号系统故障文本数据处理方法研究.pdf

    本文探讨了基于隐含狄利克雷分布(LDA)模型的轨道交通信号系统故障文本数据处理方法。在自然语言记录形式下,轨道交通信号系统故障数据面临利用率低和分类标准不统一的问题。为解决这些问题,研究者提出了一种基于...

    基于LDA(fisherface)和KNN的人脸识别(matlab)

    《基于LDA(Fisherface)和KNN的人脸识别技术在MATLAB中的实现》 人脸识别作为生物特征识别的一种重要方式,近年来得到了广泛的研究和应用。在这个领域,经典的算法之一就是结合了主成分分析(PCA)和线性判别分析...

    基于LDA主题模型进行金庸小说的文本分类python源码(NLP大作业).zip

    基于LDA主题模型进行金庸小说的文本分类python源码(NLP大作业).zip基于LDA主题模型进行金庸小说的文本分类python源码(NLP大作业).zip基于LDA主题模型进行金庸小说的文本分类python源码(NLP大作业).zip基于LDA主题...

    论文研究-基于LDA和word2vec的英文作文跑题检测.pdf

    实验结果表明,所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文,并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。

    基于python的LDA模型实现代码

    **基于Python的LDA模型实现** LDA(Latent Dirichlet Allocation)是一种主题模型,常用于文本挖掘和自然语言处理领域。它假设文档是由多个主题混合而成的,每个主题又由一组特定的词概率分布定义。在Python中,...

Global site tag (gtag.js) - Google Analytics