`
andyliuxs
  • 浏览: 139805 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论
文章列表
Latent Dirichlet Allocation(LDA) [pdf]模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。 关键所在:it posits that each document is a mixture of a small number of topics and that each word’s creation is attributable to one of the document’s topic ...
LDA和HLDA: (1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003. (2)T. L. Griffiths and M. Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences, vol. 101, pp. 5228-5235, 2004. (3) ...
转载:http://hi.baidu.com/fandywang_jl ... 9dd9dd3ac76362.html      最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博 ...
一篇改了81次的最佳学生论文          今年(注:2008年)7月在新加坡举行的第31届国际信息检索大会(SIGIR)上,微软亚洲研究院的一篇论文《BrowseRank: Letting Web Users Vote for Page Importance》获得了最佳学生论文奖(Best Student Paper ...
原文连接:http://hi.baidu.com/flyer_hit/blog/item/ad18d6d02eb04d9aa1ec9c6e.html 1. Twitter基本的统计性质Kwak-www-10weng-wsdm-101.1 Following/Followers之间的关系1.2 ...2. Twitter中内容分析的研究2.1 自动生成标签Mihalcea-EMNLP04Wu-HLT-102.2 基于主题模型的研究blei-jmlr-03griffiths_steyvers04Rosen-2004-uaizhao-ecir-2011ramage-icwsm-10Eisenstei ...
这个分类只是一个很粗糙的分类,并且截止到今年5月份,此后没有继续更新。论文包含的也不是很全,但是以小见多未必是一件坏事! 1 Topic modeling for sentiment analysis1.1 Unsupervised aspect extraction [25]1.2 Weakly supervised aspect extraction [4, 16, 17, 24, 1, 10]1.3 Joint sentiment and aspect model[17,15]+our EMNLP paper 2 Supervised opinion extraction[27,6,1 ...
情感和主观观点分类(sentiment and subjectivity classification):情感分析(sentiment analysis)就是一个文本分类(text classification)问题,主要有两个级别: 文档级别的分类:含有主观观点的文章表达的是正面的还是负面的观点(positive or negative opinion),有个专用名词表示这一类sentiment classification或者document-level sentiment classification 句子级别的分类:主要目的 句子表述的意思是主观的还是客观的,表示这 ...
感情分析(sentiment analysis)是一种长期热门趋势,终将会成为搜索引擎的关键功能之一。《纽约时报》最近撰文对感情分析进行了讨论。该文章介绍了三种感情分析工具:Scout Labs,《金融时报》的Newssift,以及Jodange。并且还提到了三个Twitter应用:Tweetfeel Twendz和Twitrratr。本文将介绍另外五个用于情感分析的工具。   1. 监测和分析社交媒体:Sysomos Sysomos在六月份推出了两个强大的产品:媒体分析平台(MAP)和心跳(Heartbeat),两个产品都是用于媒体监测和分析的强大工具。MAP允许用户在博客、社交网站 ...
Editor’s note: This is the third of a three-part guest post by venture capitalist Mark Suster of GRP Partners on “Social Networking: The Past, Present, And Future.” Read Part I and Part II first. This series is an adaptation of a recent talk Suster gave at the Caltech / MIT Enterprise Forum on “the f ...
Mark Suster Dec 4, 2010 Editor’s note: This is the second of a three-part guest post by venture capitalist Mark Suster of GRP Partners on “Social Networking: The Past, Present, And Future.” Read Part I first, this one, and then Part III. Follow him on Twitter @msuster. This series is an adapta ...
Mark Suster Dec 3, 2010 Editor’s note: This is the first of a three-part guest post by venture capitalist Mark Suster of GRP Partners on “Social Networking: The Past, Present, And Future.” Be sure to also read Part II and Part III. This series is an adaptaion of a recent talk he gave at the Cal ...
        【原理解释】           我们用API操作properties文件,如果获取的属性值是中文,为什么会出现乱码呢?            我们知道,如果编码(输出)和解码(读入)用的encoding是不一致的有可能会引起中文乱码问题,如果这两种encoding冲突,则你基本上就中奖了。看两个我们熟悉的eclipse提示:                                                           1、假设如果我们创建properties文件用的encoding是GBK,我们写入了中文           2、Properties文件默 ...
错误提示:The project was not built since its build path is incomplete. Cannot find the class file for java.lang.Object. Fix the build path then try building this project The type java.lang.Object cannot be resolved. It is indirectly referenced from required .class files 今天在eclipse3.2+myeclipse5.1+tom ...
本文采用一种交换的方式来求出两个数组的并集,交集和差集,这种算法运算速度较快,内存消耗空间较少,是一个值得学习的好方法,另外,作者提醒您,重要的不是算法本身,而是该算法会开拓我们的思维空间,要注意对问题的多思考。   算法概述: 两个任意元素的数组,比较出两个数组中相同的元素和不同的元素。   元素划分: 计算过程中,两个数组内部元素的划分:     算法流程: 从数组1的尚未比较的元素中拿出第一个元素array1(i),用array1(i)与array2(j)进行比较(其中j>i且j<array2的长度),可能出现下面两种情况, 1.  数组2中找到了一个与a ...
如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一个用来搜索匹配字符串的模式。 许多语言,包括Perl、PHP、Python、JavaScript和JScript,都支持用正则表达式处理文本,一些文本编辑器用正则表达式实现高级“搜索-替换”功能。那么Java又怎样呢?本文写作时,一个包含了用正则表达式进行文本处理的Java规范需求(Specification Request)已经得到认可,你可以期待在JDK的下一版本 ...
Global site tag (gtag.js) - Google Analytics