摘要:
文章探索了两个方面:
(1)利用扩展的矢量空间模型(包括了
标签和文本信息)进行K-MEANS聚类
(2)一种基于LDA的包含文本和标签信息的新颖聚类算法(先不说这算法了,对于LDA是什么就不知道,先看看LDA)
论文定义的
网页文档聚类任务如下:
(1)给出一系列同时具有单词和标签的文档,使用候选的聚类算法把它们聚类到不同的组中
(2)通过对网页目录进行比较,建立一个标准
(3)使用评价指标来比较聚类算法产生的结果与网页目录中产生的标准
聚类算法:
输入:聚类的数目K,和一组文档集合{1,...D}。每个文档包括来自单词词汇表W中的词袋 和 来自标签词汇表T中的标签袋(标签袋是我自己取的名字)
输出: 分派到不同类别中的文档。
除了每个文档具有同时具有词汇和标签,其他与传统的聚类一致。
实验中采用两种熟悉的聚类方法:(1)基于向量空间模型的k-means.(2)基于概率模型的LDA模型
标准:
从ODP(open directory project)中产生标准.ODP是一个开放的,用户维护的层次网页目录。在ODP中每一个节点都有一个标签,例如“Arts”或者"Python"和一系列相关的文档。在ODP中选择一个特殊节点的K'个子节点作为聚类结果标准。
评价方法:F1(即准确率与召回率的调和平均 F1=2*准备率*召回率/(准确率+召回率))
数据集:
数据集是Stanford Tag Crawl Dataset的一部分。最后考虑了13230篇文章,它们都同时存在于ODP中。
单词来自于Tag Crawl dataset,利用Stanford Penn Treebank tokenizer进行标注。最后,平均下来,每篇文章包括425个不同的单词类型(type),1218个单词标注(token)。
实验1:K-MEANS
初始化:从数据集中随机获取10个文档
使用5种方法来构建VSM(向量空间模型)
(1)只有词汇Vm=<w1,w2...>
(2)只有标签Vt
(3)词汇+标签Vw+t = <√1/2 Vw, √1/2 Vt> (说明:是根号1/2)
(4)标签是词汇的n倍,例如:词汇中“computer”出现1次,标签中"computer"出现2次,那么computer出现的次数为:1+2*n
(5)标签作为新词
在向量空间中计算权重:
考虑用两个常用的权重函数:tf和tf-idf
通过(1),(2),(3)向量空间模型,利用f1-score 比较tf和tf-idf的结果,得出利用tf来计算权重
最后,利用tf计算权重,利用k-means方法,用f1-score检验方法。得出k-means可以非常有效的把标签数据作为独立的信息渠道(因为得到词汇+标签的效果最佳)
实验2:生成主题模型
LDA我就没懂,这个MM-LDA我就更不懂了
对两类不同的文档用K-MEANS和MM-LDA两种方法做了实验,第一种文档是带有超链的,抽取每篇文档中的15个超链的TOKENS(相当于之前的标签),第二种是程序语言的文档
结论:
文章显示出社会标签对网页文档聚类提供了有用的信息,是许多信息检索(IR)应用的核心任务。通过与只用文档的实验相比,我们发现加上标签信息能更好的提高聚类的效果。两种算法包括了K-MEANS和我们提出的新颖的MM-LDA(多项式LDA)
分享到:
相关推荐
关于聚类分析的讲解及其r代码
Kmean数据——聚类.ipynb
灰色系统——聚类分析PPT课件.pptx
AZP算法——聚类分析之区域划分(OpenShaw 1975) 可以参考文献
管理决策模型与方法——聚类分析PPT学习教案.pptx
在这个“SPSS视频教程6——聚类分析”中,我们将深入探讨这一主题,学习如何利用IBM SPSS软件进行有效的聚类分析。 首先,聚类分析的基础是相似性度量。它通过计算不同数据对象之间的相似程度来决定它们应被归入...
实用统计方法——聚类分析PPT学习教案.pptx 本PPT学习教案主要讲解实用统计方法中的聚类分析,涵盖了聚类分析的基本概念、距离度量、k-均值聚类、分层聚类等内容。 首先,聚类分析是一种常用的数据分析方法,目的...
### SPSS中的聚类分析 #### 概述 聚类分析是一种重要的数据分析技术,主要用于将相似的对象聚集到一起形成群组。这种技术广泛应用于多个领域,包括市场细分、消费者行为研究、生物信息学以及社会科学等。SPSS软件...
在给定的“数据挖掘考试题目——聚类.pdf”中,涉及了聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的相关知识。 1. **DBSCAN** 是一种基于密度的聚类算法,它可以将数据点分类...
管理决策模型与方法——聚类分析PPT课件 聚类分析是数据挖掘和机器学习中的一种重要技术,旨在发现数据中的结构和模式,以便更好地理解和描述数据。聚类分析可以分为两种:判别分析和聚类分析。判别分析是指已知...
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法,它的核心思想是通过考察数据点的邻域密度来识别聚类。在数据挖掘的考试中,DBSCAN是一个重要的知识点,因为...
在本题中,重点讨论的是基于密度的聚类算法——DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。 1. **DBSCAN 的分类**:在DBSCAN中,点可以被分为三类:核心点、边界点和噪声点。核心点...
在本题中,重点讨论的是基于密度的聚类算法——DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。 1. **DBSCAN聚类类型**: - **核心点**:在Eps半径内至少有MinPts个点(包括自身)的点...
在本题中,重点讨论了基于密度的聚类算法,特别是DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。 1. DBSCAN算法将点分为三类:核心点、边界点和噪声点。核心点是那些在其Eps半径内有...
在本课程“宅着宅着就学习惯了”中,我们深入探讨了机器学习领域中的一个重要概念——聚类算法,并且特别关注了其中的KMeans算法。聚类是一种无监督学习方法,它允许我们根据数据的内在相似性将数据点分组到不同的簇...
统计方法中的聚类分析,又称为聚类分析,是多元数据分析中的一个重要分支,常见的有系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。统计方法通常关注样本点之间的几何距离,比如...
利用R软件或其他数据分析语言,进行该数据的聚类分析。利用层次聚类,对该组数据样本按照基因表达水平进行聚类,看聚类效果如何。即是否能够按照基因表达水平,将病人进行分类。距离可以选择average。注,R中有相应...
实验报告——Kmeans聚类方法 K-means 聚类方法是最为经典的基于划分的聚类方法之一,其基本思想是以空间中 k 个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好...
本资源"广义神经网络的聚类算法——网络入侵聚类.rar"似乎聚焦于利用神经网络进行网络入侵检测,这是一种在网络安全中的重要应用。网络入侵检测系统(NIDS)通过分析网络流量,识别潜在的攻击行为,保护系统免受恶意...
聚类算法的发展历程源远流长,起初依靠经验和专业知识来分类,到后来逐渐融合数学工具,发展成为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法和聚类预报法等。这些方法各有侧重,共同构成了丰富...