`
fuhao_987
  • 浏览: 63989 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

笔记(3)——Clustering the tagged web

阅读更多
摘要:
文章探索了两个方面:
(1)利用扩展的矢量空间模型(包括了标签和文本信息)进行K-MEANS聚类
(2)一种基于LDA的包含文本和标签信息的新颖聚类算法(先不说这算法了,对于LDA是什么就不知道,先看看LDA)

论文定义的网页文档聚类任务如下:
(1)给出一系列同时具有单词和标签的文档,使用候选的聚类算法把它们聚类到不同的组中
(2)通过对网页目录进行比较,建立一个标准
(3)使用评价指标来比较聚类算法产生的结果与网页目录中产生的标准

聚类算法:
输入:聚类的数目K,和一组文档集合{1,...D}。每个文档包括来自单词词汇表W中的词袋 和 来自标签词汇表T中的标签袋(标签袋是我自己取的名字)
输出: 分派到不同类别中的文档。
除了每个文档具有同时具有词汇和标签,其他与传统的聚类一致。
实验中采用两种熟悉的聚类方法:(1)基于向量空间模型的k-means.(2)基于概率模型的LDA模型

标准:
从ODP(open directory project)中产生标准.ODP是一个开放的,用户维护的层次网页目录。在ODP中每一个节点都有一个标签,例如“Arts”或者"Python"和一系列相关的文档。在ODP中选择一个特殊节点的K'个子节点作为聚类结果标准。

评价方法:F1(即准确率与召回率的调和平均 F1=2*准备率*召回率/(准确率+召回率))

数据集:
数据集是Stanford Tag Crawl Dataset的一部分。最后考虑了13230篇文章,它们都同时存在于ODP中。
单词来自于Tag Crawl dataset,利用Stanford Penn Treebank tokenizer进行标注。最后,平均下来,每篇文章包括425个不同的单词类型(type),1218个单词标注(token)。

实验1:K-MEANS
初始化:从数据集中随机获取10个文档
使用5种方法来构建VSM(向量空间模型)
(1)只有词汇Vm=<w1,w2...>
(2)只有标签Vt
(3)词汇+标签Vw+t = <√1/2 Vw, √1/2 Vt> (说明:是根号1/2)
(4)标签是词汇的n倍,例如:词汇中“computer”出现1次,标签中"computer"出现2次,那么computer出现的次数为:1+2*n
(5)标签作为新词

在向量空间中计算权重:
考虑用两个常用的权重函数:tf和tf-idf
通过(1),(2),(3)向量空间模型,利用f1-score 比较tf和tf-idf的结果,得出利用tf来计算权重
最后,利用tf计算权重,利用k-means方法,用f1-score检验方法。得出k-means可以非常有效的把标签数据作为独立的信息渠道(因为得到词汇+标签的效果最佳)

实验2:生成主题模型
LDA我就没懂,这个MM-LDA我就更不懂了

对两类不同的文档用K-MEANS和MM-LDA两种方法做了实验,第一种文档是带有超链的,抽取每篇文档中的15个超链的TOKENS(相当于之前的标签),第二种是程序语言的文档

结论
文章显示出社会标签对网页文档聚类提供了有用的信息,是许多信息检索(IR)应用的核心任务。通过与只用文档的实验相比,我们发现加上标签信息能更好的提高聚类的效果。两种算法包括了K-MEANS和我们提出的新颖的MM-LDA(多项式LDA)

分享到:
评论

相关推荐

    R语言——聚类分析.ppt

    关于聚类分析的讲解及其r代码

    Kmean数据——聚类.ipynb

    Kmean数据——聚类.ipynb

    灰色系统——聚类分析PPT课件.pptx

    灰色系统——聚类分析PPT课件.pptx

    AZP算法——聚类分析之区域划分(OpenShaw 1975)

    AZP算法——聚类分析之区域划分(OpenShaw 1975) 可以参考文献

    管理决策模型与方法——聚类分析PPT学习教案.pptx

    管理决策模型与方法——聚类分析PPT学习教案.pptx

    SPSS视频教程6——聚类分析

    在这个“SPSS视频教程6——聚类分析”中,我们将深入探讨这一主题,学习如何利用IBM SPSS软件进行有效的聚类分析。 首先,聚类分析的基础是相似性度量。它通过计算不同数据对象之间的相似程度来决定它们应被归入...

    spss——聚类分析

    ### SPSS中的聚类分析 #### 概述 聚类分析是一种重要的数据分析技术,主要用于将相似的对象聚集到一起形成群组。这种技术广泛应用于多个领域,包括市场细分、消费者行为研究、生物信息学以及社会科学等。SPSS软件...

    数据挖掘考试题目——聚类.pdf

    在给定的“数据挖掘考试题目——聚类.pdf”中,涉及了聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)的相关知识。 1. **DBSCAN** 是一种基于密度的聚类算法,它可以将数据点分类...

    管理决策模型与方法——聚类分析PPT课件.pptx

    管理决策模型与方法——聚类分析PPT课件 聚类分析是数据挖掘和机器学习中的一种重要技术,旨在发现数据中的结构和模式,以便更好地理解和描述数据。聚类分析可以分为两种:判别分析和聚类分析。判别分析是指已知...

    实用统计方法—— 聚类分析PPT学习教案.pptx

    k-均值聚类作为聚类分析中的一种重要算法,其基本思想是首先随机选取k个对象作为初始聚类中心,然后将每个对象根据距离最近的聚类中心进行分组,之后重新计算每个聚类的中心点,直到聚类中心不再变化或达到预设的...

    数据挖掘考试题目——聚类.docx

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法,它的核心思想是通过考察数据点的邻域密度来识别聚类。在数据挖掘的考试中,DBSCAN是一个重要的知识点,因为...

    数据挖掘考试题目——聚类 (2).docx

    在本题中,重点讨论的是基于密度的聚类算法——DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。 1. **DBSCAN 的分类**:在DBSCAN中,点可以被分为三类:核心点、边界点和噪声点。核心点...

    数据挖掘考试题目——聚类 (2).pdf

    在本题中,重点讨论的是基于密度的聚类算法——DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。 1. **DBSCAN聚类类型**: - **核心点**:在Eps半径内至少有MinPts个点(包括自身)的点...

    数据挖掘考试题目——聚类.doc

    在本题中,重点讨论了基于密度的聚类算法,特别是DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。 1. DBSCAN算法将点分为三类:核心点、边界点和噪声点。核心点是那些在其Eps半径内有...

    【宅着宅着就学习惯了】机器学习课程——聚类算法实战.rar

    在本课程“宅着宅着就学习惯了”中,我们深入探讨了机器学习领域中的一个重要概念——聚类算法,并且特别关注了其中的KMeans算法。聚类是一种无监督学习方法,它允许我们根据数据的内在相似性将数据点分组到不同的簇...

    数据挖掘的主要技术——聚类.pdf

    统计方法中的聚类分析,又称为聚类分析,是多元数据分析中的一个重要分支,常见的有系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。统计方法通常关注样本点之间的几何距离,比如...

    生物信息学概论——聚类分析TCGA-BRCA数据.zip

    利用R软件或其他数据分析语言,进行该数据的聚类分析。利用层次聚类,对该组数据样本按照基因表达水平进行聚类,看聚类效果如何。即是否能够按照基因表达水平,将病人进行分类。距离可以选择average。注,R中有相应...

    实验报告——Kmeans聚类方法.docx

    实验报告——Kmeans聚类方法 K-means 聚类方法是最为经典的基于划分的聚类方法之一,其基本思想是以空间中 k 个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好...

    广义神经网络的聚类算法——网络入侵聚类.rar

    本资源"广义神经网络的聚类算法——网络入侵聚类.rar"似乎聚焦于利用神经网络进行网络入侵检测,这是一种在网络安全中的重要应用。网络入侵检测系统(NIDS)通过分析网络流量,识别潜在的攻击行为,保护系统免受恶意...

    数据聚类算法在web数据挖掘中的应用.pdf

    Web数据挖掘的方法和流程包括协同过滤、关联规则分析以及Web日志聚类算法等。协同过滤基于用户喜好信息,通过计算距离来预测用户对商品的喜好程度;关联规则致力于挖掘事件中不同项的相关性;Web日志聚类算法则着重...

Global site tag (gtag.js) - Google Analytics