实例中的数据是在学术会议ACM SIGIR 2001:The 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (http://www.sigir2001.org/)上发表的一些论文的标题,我们希望对之进行聚类。
按照会议组织者的安排,各个论文应根据各自的主题属于不同的部分(paper session),分别在不同的时间进行讨论。我们选择了其中的4个部分共12篇论文为例。这些论文是关于两个主题的:摘要(summarization) 和语言模型(language model)。我们将对这些论文的标题进行正交聚类,并与会议组织者人为划分的结果进行比较。
Paper Session IA: Summarization 1
D1: Applying Summarization Techniques for Term Selection in Relevance Feedback
D2: Temporal Summaries of News Topics
D3: Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis
D4: A New Approach to Unsupervised Text Summarization
Paper Session 3: Language Model
D5: Document Language Models, Query Models, and Risk Minimization for Information Retrieval
D6: Relevance-based Language Models
Paper Session 5A: Summarization 2
D7: Generic Summaries for Indexing in Information Retrieval
D8: Automatic Generation of Concise Summaries of Spoken Dialogues in Unrestricted Domains
D9: Enhanced Topic Distillation using Text, Markup Tags, and Hyperlinks
Paper Session 8A: Language Models 2
D10: A Study of Smoothing Methods for Language Models Applied to ad hoc Information Retrieval
D11: Topic Segmentation with an Aspect Hidden Markov Model
D12: Finding Topic Words for Hierarchical Summarization
表4 .1 ACM SIGIR 2001 会议上的一些论文的标题
将这些论文的标题作为“文档”,记为D1,D2,...,D12。首先找出在这些文档中出现过两次以上的单词作为关键词,在表4.1中以斜体表示。在此过程中,同一个词根(stem)不同后缀形式的单词被认为是相等的,如summarize和summarization。关键词中不包括of,for等常用词。另外,因为这个会议的总的主题是信息检索(Information Retrieval),Information和Retrieval这两个单词在论文中出现很频繁,所以关键词中也不包括它们。然后,就可以构造词语-文档关系矩阵(term-document matrix),矩阵的各个行表示各个关键词,矩阵的各个列表示各个文档,矩阵第i行第j列的元素表示第i个关键词是否在第j个文档中出现,如表4.2所示。
|
D1
|
D2
|
D3
|
D4
|
D5
|
D6
|
D7
|
D8
|
D9
|
D10
|
D11
|
D12
|
Summarization
|
1
|
1
|
1
|
1
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
1
|
Relevance
|
1
|
0
|
1
|
0
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
0
|
Topic
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
0
|
1
|
0
|
1
|
1
|
Generic
|
0
|
0
|
1
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
0
|
0
|
Text
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
0
|
1
|
0
|
0
|
0
|
Language
|
0
|
0
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
1
|
0
|
0
|
Model
|
0
|
0
|
0
|
0
|
1
|
1
|
0
|
0
|
0
|
1
|
1
|
0
|
表 4.2 对应于表4 .1中数据的词语-文档关系矩阵
易见合理的类数k=2,或者说将这些论文分成两类。
根据矩阵A的奇异值分解,得到正交聚类的结果,矩阵A的行的前2个类向量(即矩阵A的前2个左奇异向量)是
X1=(0.76, 0.33, 0.32, 0.26, 0.33, 0.11, 0.15)T,
X2=(-0.25, 0.17, 0.04, -0.09, -0.10, 0.61, 0.72)T;
矩阵A的列的前2个类向量(即矩阵A的前2个右奇异向量)是
Y1=( 0.34, 0.34, 0.52, 0.34, 0.08, 0.18, 0.32, 0.24, 0.20, 0.08, 0.15, 0.34)T,
Y2= (-0.03, -0.08, -0.10, -0.13, 0.51, 0.57, -0.13, -0.10, -0.02, 0.51, 0.29, -0.08)T。
如果在这个正交聚类的结果的基础之上,构造划分型聚类。那么这些论文将被分成两类:
(1) V1={D1, D2 , D3, D4, D7, D8, D9, D1 2},
相应的关键词U1={ Summarization, Relevance, Topic, Generic, Text},
(其中关键词Summarization的权重最大):
(2) V2={D5, D6, D10, D11},
相应的关键词U2={Language, Model}。
这个结果与ACM SIGIR 2001会议组织者人为划分的结果(见表4.1)基本吻合,只是D12的类别有所不同。从论文D12的标题(Finding Topic Words for Hierarchical Summarization)与内容来看,正交聚类将论文D12划分到主题是摘要(summarization)的类V1也是很自然的。如果在这个正交聚类的结果的基础之上,取程度临界值X Threshold = 0.15构造覆盖型聚类,那么论文D6与D12将同时属于两个类,即D6和D12与两个主题都不同程度地相关。
参考:万维网信息聚类研究
分享到:
相关推荐
在IT领域,奇异值分解(Singular Value Decomposition,SVD)是一种强大的线性代数技术,广泛应用于数据压缩、图像处理、机器学习等多个方面。本文将深入探讨SVD的基本概念,C++实现以及如何利用开源库Eigen进行SVD...
在IT领域,尤其是在信号处理和数据分析中,SVD-TLS(奇异值分解-最小二乘)算法是一种重要的数学工具,用于处理有噪声的数据并提取有用信息。本文将深入探讨SVD-TLS算法及其在估计ARMA(自回归移动平均)模型中的...
包含:STM32F756.svd STM32H723.svd STM32L476.svd STM32F0x0.svd STM32F7x2.svd STM32H725.svd STM32L496.svd STM32F0x1.svd STM32F7x3.svd STM32H73x.svd STM32L4P5.svd STM32F0x2.svd STM32F7x5.svd STM32H742x....
SVD迭代法是结合SVD理论的一种特征值求解策略,特别是在处理大型矩阵时,由于SVD能够有效地处理稀疏矩阵,因此这种方法特别有效。通过构造一个近似的SVD,并利用SVD的性质,可以逐步逼近矩阵的特征值。然而,需要...
**SVD-TLS算法详解** SVD-TLS(奇异值分解-最小二乘修正)算法是一种在数值线性代数和信号处理领域中广泛应用的技术,主要用于处理存在噪声和不完整数据的情况。它结合了奇异值分解(Singular Value Decomposition,...
SVD(System View Description)文件是ARM公司推出的一种标准格式,用于描述微处理器或系统级芯片(SoC)的寄存器结构。这种文件在嵌入式开发领域中扮演着重要角色,特别是在软件调试和仿真过程中。ST、GD和NZP等...
文件列表中的"1.bat"可能是运行程序的批处理文件,"SVD.exe"是实际执行GPU SVD的可执行文件,"1.txt"可能包含输入矩阵数据或程序输出,"说明.txt"提供详细的操作指南和算法解释,"SVD验算.xlsx"则是结果的验证,可能...
复数奇异值分解(CSVD)是矩阵理论中的一个重要概念,是奇异值分解(SVD)的扩展形式,用于处理包含复数元素的矩阵。在本文中,我们将深入探讨SVD的基本原理,复数奇异值分解的特点,以及如何在C++中实现这个算法。 ...
奇异值分解(Singular Value Decomposition,简称SVD)是一种在数学、计算机科学以及数据分析等领域广泛应用的矩阵分解方法。在本场景中,"SVD.rar"是一个压缩包,包含了一个名为"SVD.FOR"的FORTRAN源代码文件,用于...
标题中的"SparseDOA.zip"是一个压缩包,包含与DOA(Direction of Arrival)估计相关的文件,特别是使用了"L1-SVD"(L1范数最小化与奇异值分解)方法。DOA估计是信号处理领域的一个关键问题,特别是在多传感器阵列中...
**Singular Value Decomposition (SVD) 简介** Singular Value Decomposition(奇异值分解,简称SVD)是线性代数中一个非常重要的矩阵分解方法,它将任何给定的m×n实矩阵A分解为三个矩阵的乘积,即A=UΣV^T。这里...
**SVD算法详解** SVD,全称奇异值分解(Singular Value Decomposition),是线性代数中一种重要的矩阵分解方法。它在数据分析、机器学习、图像处理、信号处理等多个领域有着广泛的应用。SVD将一个m×n的矩阵A分解为...
**SVD++与SVD在推荐系统中的应用** 在现代数据驱动的世界中,推荐系统已经成为电商、社交媒体和其他在线服务提供个性化用户体验的关键技术。Singular Value Decomposition(SVD)和其扩展版本SVD++是推荐系统中最...
**Singular Value Decomposition (SVD) 是一种在数学、信号处理和机器学习等领域广泛应用的线性代数技术。在本资源"svd.rar"中,我们关注的是如何使用MATLAB来实现SVD进行人脸特征提取。** SVD是矩阵分解的一种形式...
奇异值分解(Singular Value Decomposition,简称SVD)是一种在数学、计算机科学以及信号处理等领域广泛应用的矩阵分解方法。SVD将一个矩阵分解为三个矩阵的乘积,即\( A = U \Sigma V^T \),其中\( A \)是原始矩阵...
《SVD解线性方程组:高效与实用的数学工具》 在数学和计算机科学领域,线性方程组的求解是一项基础且至关重要的任务。它广泛应用于各种问题,如图像处理、数据分析、机器学习等。Singular Value Decomposition...
《L1-SVD在信号分离中的应用》 在信息技术领域,信号处理是至关重要的一环,尤其是在通信、图像处理和数据挖掘等应用场景中。L1-SVD(L1范数奇异值分解)是一种创新的信号分离技术,它在处理稀疏信号恢复和压缩感知...
张量(三维矩阵)奇异值分解,简称SVD(Singular Value Decomposition),是一种在数学、计算机科学和信号处理等领域广泛应用的线性代数技术。它对于理解和处理高维数据,尤其是图像处理中的去噪问题,具有显著的...
奇异值分解(Singular Value Decomposition,简称SVD)是一种在数学、工程和计算机科学等领域广泛应用的矩阵分解方法。在信号处理,特别是雷达与海洋遥感领域,SVD被用来处理和抑制海杂波,以增强弱小目标的检测能力...