笔记（3）——Clustering the tagged web

fuhao_987

浏览: 65075 次
性别:
来自: 北京

最近访客更多访客>>

april2015

dabingsou

heermu

活出精彩--耶

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

读论文笔记

Web 算法 Python D语言

摘要：
文章探索了两个方面：
（1）利用扩展的矢量空间模型（包括了标签和文本信息）进行K-MEANS聚类
（2）一种基于LDA的包含文本和标签信息的新颖聚类算法（先不说这算法了，对于LDA是什么就不知道，先看看LDA）

论文定义的网页文档聚类任务如下：
（1）给出一系列同时具有单词和标签的文档,使用候选的聚类算法把它们聚类到不同的组中
（2）通过对网页目录进行比较，建立一个标准
（3）使用评价指标来比较聚类算法产生的结果与网页目录中产生的标准

聚类算法：
输入：聚类的数目K，和一组文档集合{1,...D}。每个文档包括来自单词词汇表W中的词袋和来自标签词汇表T中的标签袋（标签袋是我自己取的名字）
输出：分派到不同类别中的文档。
除了每个文档具有同时具有词汇和标签，其他与传统的聚类一致。
实验中采用两种熟悉的聚类方法：（1）基于向量空间模型的k-means.（2）基于概率模型的LDA模型

标准：
从ODP（open directory project）中产生标准.ODP是一个开放的，用户维护的层次网页目录。在ODP中每一个节点都有一个标签，例如“Arts”或者"Python"和一系列相关的文档。在ODP中选择一个特殊节点的K'个子节点作为聚类结果标准。

评价方法：F1（即准确率与召回率的调和平均 F1=2*准备率*召回率/（准确率+召回率））

数据集：
数据集是Stanford Tag Crawl Dataset的一部分。最后考虑了13230篇文章，它们都同时存在于ODP中。
单词来自于Tag Crawl dataset,利用Stanford Penn Treebank tokenizer进行标注。最后，平均下来，每篇文章包括425个不同的单词类型（type），1218个单词标注(token)。

实验1：K-MEANS
初始化：从数据集中随机获取10个文档
使用5种方法来构建VSM（向量空间模型）
（1）只有词汇Vm=<w1,w2...>
（2）只有标签Vt
（3）词汇+标签Vw+t = <√1/2 Vw, √1/2 Vt> （说明：是根号1/2）
（4）标签是词汇的n倍，例如：词汇中“computer”出现1次，标签中"computer"出现2次，那么computer出现的次数为：1+2*n
（5）标签作为新词

在向量空间中计算权重：
考虑用两个常用的权重函数：tf和tf-idf
通过（1），（2），（3）向量空间模型，利用f1-score 比较tf和tf-idf的结果，得出利用tf来计算权重
最后，利用tf计算权重，利用k-means方法，用f1-score检验方法。得出k-means可以非常有效的把标签数据作为独立的信息渠道（因为得到词汇+标签的效果最佳）

实验2：生成主题模型
LDA我就没懂，这个MM-LDA我就更不懂了

对两类不同的文档用K-MEANS和MM-LDA两种方法做了实验，第一种文档是带有超链的，抽取每篇文档中的15个超链的TOKENS（相当于之前的标签），第二种是程序语言的文档

结论：
文章显示出社会标签对网页文档聚类提供了有用的信息，是许多信息检索（IR）应用的核心任务。通过与只用文档的实验相比，我们发现加上标签信息能更好的提高聚类的效果。两种算法包括了K-MEANS和我们提出的新颖的MM-LDA(多项式LDA)

分享到：

MVC模式 | 利用k-menas来解释EM算法

2011-03-01 15:44
浏览 1381
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论