- 浏览: 1653757 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (405)
- C/C++ (16)
- Linux (60)
- Algorithm (41)
- ACM (8)
- Ruby (39)
- Ruby on Rails (6)
- FP (2)
- Java SE (39)
- Java EE (6)
- Spring (11)
- Hibernate (1)
- Struts (1)
- Ajax (5)
- php (2)
- Data/Web Mining (20)
- Search Engine (19)
- NLP (2)
- Machine Learning (23)
- R (0)
- Database (10)
- Data Structure (6)
- Design Pattern (16)
- Hadoop (2)
- Browser (0)
- Firefox plugin/XPCOM (8)
- Eclise development (5)
- Architecture (1)
- Server (1)
- Cache (6)
- Code Generation (3)
- Open Source Tool (5)
- Develope Tools (5)
- 读书笔记 (7)
- 备忘 (4)
- 情感 (4)
- Others (20)
- python (0)
最新评论
-
532870393:
请问下,这本书是基于Hadoop1还是Hadoop2?
Hadoop in Action简单笔记(一) -
dongbiying:
不懂呀。。
十大常用数据结构 -
bing_it:
...
使用Spring MVC HandlerExceptionResolver处理异常 -
一别梦心:
按照上面的执行,文件确实是更新了,但是还是找不到kernel, ...
virtualbox 4.08安装虚机Ubuntu11.04增强功能失败解决方法 -
dsjt:
楼主spring 什么版本,我的3.1 ,xml中配置 < ...
使用Spring MVC HandlerExceptionResolver处理异常
最近研究LDA挖掘隐含topic来对短文本分类,没想到师弟fandywang转载了一篇文章,可以作为一个很好的参考:
最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:
David M. Blei
LDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:
- J. Chang and D. Blei. Relational Topic Models for Document Networks . Artificial Intelligence and Statistics , 2009. [PDF ]
基本LDA模型,当然假设文档之间是可交换的,那么在原始的LDA中文档之间其实是认为条件独立的。而在实际情况中,往往不是这个样子的,文档间也许会存
在“social network”的这样的网络性质。如何结合内容和“social
network”这两个特征也许是一个非常有意思的话题。这篇论文就是给出了一个解决方法。它为两个文档之间增加了一个二元随机变量,根据其内容特征,来
刻画这种隐含的链接关系。
关于显示的链接关系是过去今年内,人们追逐研究的对象,进而产生PageRank、HITS等等一大批优秀的链接关系算法。那么如何利用隐含的链接呢?什
么是隐含的链接呢?一个最简单的隐含链接就是基于内容相似度构建的图。这个被人们用的不亦乐乎,比如在文摘中的LexRank等。O Kurland在SIGIR中发了两篇大概都是类似的文章,本质思想貌似就是在利用内容之间的“超链接”。
另外一个比较新颖的研究点,就是如何基于“social network”来挖掘内容特征? Mei Qiaozhu的一篇论文就是利用“social network”的网络结构特征最为规则化因子,重新修正了原始的PLSA模型。想法非常的新颖。
- D. Blei and J. Lafferty. Topic Models. In A. Srivastava and M. Sahami, editors, Text Mining: Theory and Applications . Taylor and Francis, in press. [PDF ]
这篇论文是一篇综述性的大制作的论文,Blei在里面深入浅出的介绍了什么是Topic Model以及他早期的一些Topic Model的变形。值得大家去阅读。
- J. Boyd-Graber and D. Blei. Syntactic Topic Models . Neural Information Processing Systems , 2009. [PDF ] [Supplement ]
原始的LDA考察两个词只是基于共现的角度。而实际情况中,这种共现往往是不能够精确地刻画一些句子结构信息或者说词义信息。如何把这种信息引入。考虑
更深层的生成模型是目前一个热点。这篇论文着眼于一个句子的句法分析的生成过程,它认为每个句子的生成都是基于“parse
tree”的,整个概率生成过程完全附着在“parse tree”上了。并且每个句子内,不同的词都有可能去选择更适合自己的Topic。
- D. Blei, J. McAuliffe. Supervised topic models . In Advances in Neural Information Processing Systems 21, 2007. [PDF] [digg data ]
现如今,网络数据除了纯内容外,往往还有其他一写辅助信息,如用户对于某博文的评价或者说用户对于某商品的评价。一个最典型的例子,就是说在当当买书
后,你可以给该书的质量进行打分:5星代表最好,4星代表比较好,。。。依次类推。那么如何把这些信息加入原始的LDA中呢?
Blei为其引入了一个response变量因子,该因子条件依赖于该文档的topic distribution。
如何把ratable information和内容有机地结合起来也是最近的一个研究热点。大多数方法还都是,建立一个ratable response variable,然后该变量条件依赖于内容或者说Topic信息。
- J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation . In Empirical Methods in Natural Language Processing, 2007. [PDF]
这篇论文对应的一个大背景是把Topic Model应用到自然语言处理中,具体内容我没太看,主要是结合了WordNet的结构特征,在此基础上产生的图模型。
此外的一些工作还有把Topic Model用来文摘和词性标注中的。应用到这些问题的两个主要思路:第一个就是用Topic
Model去学习出一些compact
features,然后在次基础上利用分类器等机器学习方法;另外一种就是利用原始NLP问题的一些结构信息,比如刚才所说的WordNet中的网络结
构,在这个结构特征中推导出整个图模型的概率生成过程。
- D. Blei and J. Lafferty. A correlated topic model of Science . Annals of Applied Statistics. 1:1 17–35. [PDF ] [shorter version from NIPS 18] [code ][browser ]
还没有认真看,这个其实打破了原来topic之间的可交换性。
- D. Blei and J. Lafferty. Dynamic topic models . In Proceedings of the 23rd International Conference on Machine Learning, 2006. [PDF ]
也没有仔细看,把Topic Model和时间维度结合了起来。Mei Qiaozhu也有一篇是研究话题内容随着时间变化的论文,但是是基于PLSI和HMM来完成的。
- T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax . In Advances in Neural Information Processing Systems 17, 2005. [PDF ]
- D. Blei. Probabilistic Models of Text and Images . PhD thesis, U.C. Berkeley, Division of Computer Science, 2004. [PDF ]
- D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation . Journal of Machine Learning Research, 3:993–1022, January 2003. [A shorter version appeared in NIPS 2002]. [PDF ] [code ]
- D. Blei and P. Moreno. Topic segmentation with an aspect hidden Markov model . In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 343–348. ACM Press, 2001. [PDF ]
总结
目前我能看懂的Topic Model的文章还是很少一部分,自己的概率和数学基础太差,对于posterior inference往往无能为力,这也是下一步我的目标。并且自己其实也不太会创新,下一步也是要在这个方面多下功夫,争取应用Topic Model来解决自己的实际问题。发表评论
-
[zz]推荐系统-从入门到精通
2013-04-20 14:38 2494为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌 ... -
机器学习在公司的分享
2013-02-23 12:38 2908机器学习在公司的分享,ppt见附件,主要简单介绍了机器学习: ... -
Deep learning的一些教程[rz]
2013-02-03 19:14 27122转载自http://baojie.o ... -
[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接
2012-11-30 13:13 12211牛人主页(主页有很多论文代码) Serge ... -
Deep learning的一些有用链接
2012-11-12 19:09 3496deeplearning tutorials: http:// ... -
信息论学习总结(二)最大熵模型
2012-06-04 08:13 0显然,如果A表示可能的类别,B表示可能的上下文,p应该最大化熵 ... -
信息论学习总结(一)基础知识
2012-06-02 22:57 4411我们考虑一下一个离散的随机变量x,当我们观察到它的一个值,能给 ... -
loss function
2012-05-11 22:54 2601几种损失函数: 对于回归问题: 平方损失: 绝对值损失: −i ... -
Large-Scale Support Vector Machines: Algorithms and Theory
2012-04-12 00:32 0支持向量机是一种流行 ... -
使用SGD(Stochastic Gradient Descent)进行大规模机器学习
2012-05-11 23:01 44125使用SGD(Stocha ... -
构建自己的DSL之三 抓取文件管理
2011-07-18 23:26 1744转载请标明出处:http://fuliang.iteye.co ... -
构建自己的DSL之二 抓取文本处理
2011-07-11 23:18 2293转载请标明出处:http://fuliang.iteye.co ... -
构建自己的DSL之一 Simple Crawler
2011-07-11 22:08 3010转载请标明出处:http://fuliang.iteye.co ... -
paper and book阅读
2011-06-28 23:19 2646我微博每周读论 ... -
模式识别和机器学习 笔记 第四章 线性分类模型(二)
2011-05-29 23:13 04.3 概率判别模型 对于两类的分类问题,我们已经看到c1的后 ... -
模式识别和机器学习 笔记 第四章 线性分类模型(一)
2011-05-26 23:36 9849转载请标明出处: http:/ ... -
模式识别和机器学习 第六章 核方法
2011-05-11 23:55 0在第3,4章,我们已经考虑了回归和分类的线性参数模型,参数向量 ... -
开始读Jordan大神的《Graphical Models,Exponetial Families and Variation Inference》
2011-05-04 00:24 0概率图模型提供了统一的框架来捕捉和描述随机变量之间的依赖关系, ... -
模式识别和机器学习 笔记 第三章 线性回归模型
2011-04-27 14:08 6138第三章 线性回归模型 这章主要介绍线性回归模型,回归 ... -
模式识别和机器学习 笔记 第二章 概率分布
2011-03-21 23:52 6288这章主要介绍概 ...
相关推荐
3. **推荐系统**:用户兴趣的分析和推荐可以基于LDA生成的主题。 4. **社交网络分析**:研究用户的话题偏好,揭示社区结构。 5. **新闻聚合**:发现热点话题,对新闻进行聚类。 总之,LDA主题模型是理解和挖掘大量...
lda topic model blei
【图像识别】基于LDA(线性判别分析)实现人脸识别是计算机视觉和机器学习领域的一个重要应用。在本项目中,我们利用Matlab作为主要的编程工具来完成这一任务。Matlab是一款强大的数学计算软件,它提供了丰富的...
基于LDA的主题分析 本文主要阐述了基于LDA模型的主题文本分析,涵盖了LDA的基本原理、基于LDA模型的主题文本分析、实验设计、Gibbs抽样等方面的知识点。 第一,LDA模型的基本原理:LDA模型是一种基于概率论的主题...
《基于LDA的人脸识别系统详解》 人脸识别技术在当今智能科技领域中占据了重要的地位,广泛应用于安防、门禁、考勤、社交网络等多个场景。其中,线性判别分析(Linear Discriminant Analysis, LDA)是一种常用的人脸...
LDA是一种基于概率的混合模型,广泛应用于自然语言处理、信息检索和文本挖掘领域。 LDA的基本思想是假设每篇文档都是由多个主题混合生成的,而每个主题又是一个词的概率分布。在LDA模型中,文档被看作是主题的...
《Python实现基于LDA主题模型进行电商产品评论数据情感分析》 该项目实战旨在利用Python编程语言,结合LDA(Latent Dirichlet Allocation)主题模型,对电商产品评论数据进行深度的情感分析。LDA是一种无监督机器...
本文基于LDA模型,对微博热搜进行主题分析与研究。首先,对微博数据进行预处理,然后用LDA对处理后的数据进行建模,并利用PyLDAVis对主题展示。最后,我们对所得到的主题进行了分析和解释,探讨了微博热搜背后的社会...
基于LDA的Topic Model, 能够处理中文, 获取用户对不同主题的兴趣分布。 LDA及其并行化在海量数据分析中的应用越来越广。 数据格式: #* 微博标题 #@ weibo作者 #! 分好词的微博内容(可用FudanNLP进行分析和标注...
### 一种新颖的基于LDA的人脸识别方法 #### 摘要与研究背景 本文提出了一种结合离散余弦变换(Discrete Cosine Transform, DCT)与线性判别分析(Linear Discriminant Analysis, LDA)的人脸识别新方法。该方法...
一种用于视频推荐的基于LDA的深度学习模型.pdf
人脸识別技术是一种广泛应用的身份验证方法,而线性判别分析(LDA)在其中扮演了重要的角色。本文将深入探讨LDA在人脸识别中的应用,以及如何使用MATLAB实现这一过程。 LDA(Linear Discriminant Analysis)是一种...
本文探讨了基于隐含狄利克雷分布(LDA)模型的轨道交通信号系统故障文本数据处理方法。在自然语言记录形式下,轨道交通信号系统故障数据面临利用率低和分类标准不统一的问题。为解决这些问题,研究者提出了一种基于...
《基于LDA(Fisherface)和KNN的人脸识别技术在MATLAB中的实现》 人脸识别作为生物特征识别的一种重要方式,近年来得到了广泛的研究和应用。在这个领域,经典的算法之一就是结合了主成分分析(PCA)和线性判别分析...
基于LDA主题模型进行金庸小说的文本分类python源码(NLP大作业).zip基于LDA主题模型进行金庸小说的文本分类python源码(NLP大作业).zip基于LDA主题模型进行金庸小说的文本分类python源码(NLP大作业).zip基于LDA主题...
实验结果表明,所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文,并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。
**基于Python的LDA模型实现** LDA(Latent Dirichlet Allocation)是一种主题模型,常用于文本挖掘和自然语言处理领域。它假设文档是由多个主题混合而成的,每个主题又由一组特定的词概率分布定义。在Python中,...