`

SVD

J# 
阅读更多

实例中的数据是在学术会议ACM SIGIR 2001The 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (http://www.sigir2001.org/)上发表的一些论文的标题,我们希望对之进行聚类。

按照会议组织者的安排,各个论文应根据各自的主题属于不同的部分(paper session),分别在不同的时间进行讨论。我们选择了其中的4个部分共12篇论文为例。这些论文是关于两个主题的:摘要(summarization) 和语言模型(language model)。我们将对这些论文的标题进行正交聚类,并与会议组织者人为划分的结果进行比较。

 

Paper Session IA: Summarization 1

D1: Applying Summarization Techniques for Term Selection in Relevance Feedback

D2: Temporal Summaries of News Topics

D3: Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis

D4: A New Approach to Unsupervised Text Summarization

Paper Session 3: Language Model

D5: Document Language Models, Query Models, and Risk Minimization for Information Retrieval

D6: Relevance-based Language Models

Paper Session 5A: Summarization 2

D7: Generic Summaries for Indexing in Information Retrieval

D8: Automatic Generation of Concise Summaries of Spoken Dialogues in Unrestricted Domains

D9: Enhanced Topic Distillation using Text, Markup Tags, and Hyperlinks

Paper Session 8A: Language Models 2

D10: A Study of Smoothing Methods for Language Models Applied to ad hoc Information Retrieval

D11: Topic Segmentation with an Aspect Hidden Markov Model

D12: Finding Topic Words for Hierarchical Summarization

 

4 .1 ACM SIGIR 2001 会议上的一些论文的标题

 

将这些论文的标题作为“文档”,记为D1D2...D12。首先找出在这些文档中出现过两次以上的单词作为关键词,在表4.1中以斜体表示。在此过程中,同一个词根(stem)不同后缀形式的单词被认为是相等的,如summarizesummarization。关键词中不包括offor等常用词。另外,因为这个会议的总的主题是信息检索(Information Retrieval)InformationRetrieval这两个单词在论文中出现很频繁,所以关键词中也不包括它们。然后,就可以构造词语-文档关系矩阵(term-document matrix),矩阵的各个行表示各个关键词,矩阵的各个列表示各个文档,矩阵第i行第j列的元素表示第i个关键词是否在第j个文档中出现,如表4.2所示。

 

 

 

D1

D2

D3

D4

D5

D6

D7

D8

D9

D10

D11

D12

Summarization

1

1

1

1

0

0

1

1

0

0

0

1

Relevance

1

0

1

0

0

1

0

0

0

0

0

0

Topic

0

1

0

0

0

0

0

0

1

0

1

1

Generic

0

0

1

0

0

0

1

0

0

0

0

0

Text

0

0

1

1

0

0

0

0

1

0

0

0

Language

0

0

0

0

1

1

0

0

0

1

0

0

Model

0

0

0

0

1

1

0

0

0

1

1

0

 

4.2 对应于表4 .1中数据的词语-文档关系矩阵

 

易见合理的类数k=2,或者说将这些论文分成两类。

根据矩阵A的奇异值分解,得到正交聚类的结果,矩阵A的行的前2个类向量(即矩阵A的前2个左奇异向量)

 

X1=(0.76, 0.33, 0.32, 0.26, 0.33, 0.11, 0.15)T,

X2=(-0.25, 0.17, 0.04, -0.09, -0.10, 0.61, 0.72)T;

 

矩阵A的列的前2个类向量(即矩阵A的前2个右奇异向量)

Y1=( 0.34, 0.34, 0.52, 0.34, 0.08, 0.18, 0.32, 0.24, 0.20, 0.08, 0.15, 0.34)T,

Y2= (-0.03, -0.08, -0.10, -0.13, 0.51, 0.57, -0.13, -0.10, -0.02, 0.51, 0.29, -0.08)T

如果在这个正交聚类的结果的基础之上,构造划分型聚类。那么这些论文将被分成两类:

(1)     V1={D1, D2 , D3, D4, D7, D8, D9, D1 2}

相应的关键词U1={ Summarization, Relevance, Topic, Generic, Text}

(其中关键词Summarization的权重最大)

(2)     V2={D5, D6, D10, D11}

相应的关键词U2={Language, Model}

这个结果与ACM SIGIR 2001会议组织者人为划分的结果(见表4.1)基本吻合,只是D12的类别有所不同。从论文D12的标题(Finding Topic Words for Hierarchical Summarization)与内容来看,正交聚类将论文D12划分到主题是摘要(summarization)的类V1也是很自然的。如果在这个正交聚类的结果的基础之上,取程度临界值X Threshold = 0.15构造覆盖型聚类,那么论文D6D12将同时属于两个类,即D6D12与两个主题都不同程度地相关。

 

参考:万维网信息聚类研究

分享到:
评论

相关推荐

    SVD-TLS_SVD-TLS算法_SVD-TLSmatlab_svd-tls_ARMA_TLS-SVD_

    在IT领域,尤其是在信号处理和数据分析中,SVD-TLS(奇异值分解-最小二乘)算法是一种重要的数学工具,用于处理有噪声的数据并提取有用信息。本文将深入探讨SVD-TLS算法及其在估计ARMA(自回归移动平均)模型中的...

    stm32 SVD文件合集

    包含:STM32F756.svd STM32H723.svd STM32L476.svd STM32F0x0.svd STM32F7x2.svd STM32H725.svd STM32L496.svd STM32F0x1.svd STM32F7x3.svd STM32H73x.svd STM32L4P5.svd STM32F0x2.svd STM32F7x5.svd STM32H742x....

    特征值分解 迭代法_SVD迭代法_SVD_特征值分解_

    SVD迭代法是结合SVD理论的一种特征值求解策略,特别是在处理大型矩阵时,由于SVD能够有效地处理稀疏矩阵,因此这种方法特别有效。通过构造一个近似的SVD,并利用SVD的性质,可以逐步逼近矩阵的特征值。然而,需要...

    SVD-TLS算法_SVD-TLS算法_

    **SVD-TLS算法详解** SVD-TLS(奇异值分解-最小二乘修正)算法是一种在数值线性代数和信号处理领域中广泛应用的技术,主要用于处理存在噪声和不完整数据的情况。它结合了奇异值分解(Singular Value Decomposition,...

    ST GD等大多数M内核芯片SVD文件

    SVD(System View Description)文件是ARM公司推出的一种标准格式,用于描述微处理器或系统级芯片(SoC)的寄存器结构。这种文件在嵌入式开发领域中扮演着重要角色,特别是在软件调试和仿真过程中。ST、GD和NZP等...

    使用GPU实现SVD

    文件列表中的"1.bat"可能是运行程序的批处理文件,"SVD.exe"是实际执行GPU SVD的可执行文件,"1.txt"可能包含输入矩阵数据或程序输出,"说明.txt"提供详细的操作指南和算法解释,"SVD验算.xlsx"则是结果的验证,可能...

    SVD.rar_SVD_SVD 气象_fortran svd_svd fortran

    奇异值分解(Singular Value Decomposition,简称SVD)是一种在数学、计算机科学以及数据分析等领域广泛应用的矩阵分解方法。在本场景中,"SVD.rar"是一个压缩包,包含了一个名为"SVD.FOR"的FORTRAN源代码文件,用于...

    svd_complex_SVD_svd分解_复数奇异值分解_csvd_

    复数奇异值分解(CSVD)是矩阵理论中的一个重要概念,是奇异值分解(SVD)的扩展形式,用于处理包含复数元素的矩阵。在本文中,我们将深入探讨SVD的基本原理,复数奇异值分解的特点,以及如何在C++中实现这个算法。 ...

    svd分解的C语言实现

    **Singular Value Decomposition (SVD) 简介** Singular Value Decomposition(奇异值分解,简称SVD)是线性代数中一个非常重要的矩阵分解方法,它将任何给定的m×n实矩阵A分解为三个矩阵的乘积,即A=UΣV^T。这里...

    SVD算法:利用SVD分解的平移、旋转矩阵算法

    **SVD算法详解** SVD,全称奇异值分解(Singular Value Decomposition),是线性代数中一种重要的矩阵分解方法。它在数据分析、机器学习、图像处理、信号处理等多个领域有着广泛的应用。SVD将一个m×n的矩阵A分解为...

    SVD++_SVD_SVD++代码_推荐系统svd_

    **SVD++与SVD在推荐系统中的应用** 在现代数据驱动的世界中,推荐系统已经成为电商、社交媒体和其他在线服务提供个性化用户体验的关键技术。Singular Value Decomposition(SVD)和其扩展版本SVD++是推荐系统中最...

    svd.rar_SVD_SVD_ MATLAB_SVD特征提取_特征提取

    **Singular Value Decomposition (SVD) 是一种在数学、信号处理和机器学习等领域广泛应用的线性代数技术。在本资源"svd.rar"中,我们关注的是如何使用MATLAB来实现SVD进行人脸特征提取。** SVD是矩阵分解的一种形式...

    SVD_SVD降噪_SVD_SVD信号_分解_信号分解

    奇异值分解(Singular Value Decomposition,简称SVD)是一种在数学、计算机科学以及信号处理等领域广泛应用的矩阵分解方法。SVD将一个矩阵分解为三个矩阵的乘积,即\( A = U \Sigma V^T \),其中\( A \)是原始矩阵...

    SVD 解线性方程组,非常好用

    《SVD解线性方程组:高效与实用的数学工具》 在数学和计算机科学领域,线性方程组的求解是一项基础且至关重要的任务。它广泛应用于各种问题,如图像处理、数据分析、机器学习等。Singular Value Decomposition...

    L1-SVD-master_SVD_L1-SVD_

    《L1-SVD在信号分离中的应用》 在信息技术领域,信号处理是至关重要的一环,尤其是在通信、图像处理和数据挖掘等应用场景中。L1-SVD(L1范数奇异值分解)是一种创新的信号分离技术,它在处理稀疏信号恢复和压缩感知...

    张量(三维矩阵)奇异值分解即SVD分解进行图像去噪-SVD.rar

    张量(三维矩阵)奇异值分解,简称SVD(Singular Value Decomposition),是一种在数学、计算机科学和信号处理等领域广泛应用的线性代数技术。它对于理解和处理高维数据,尤其是图像处理中的去噪问题,具有显著的...

    SVD_SVD杂波_海杂波抑制_奇异值分解算法实现海杂波抑制_海杂波_

    奇异值分解(Singular Value Decomposition,简称SVD)是一种在数学、工程和计算机科学等领域广泛应用的矩阵分解方法。在信号处理,特别是雷达与海洋遥感领域,SVD被用来处理和抑制海杂波,以增强弱小目标的检测能力...

    SVD降噪,svd降噪原理,matlab

    奇异值分解(Singular Value Decomposition,简称SVD)是一种在数学、计算机科学和工程领域广泛应用的线性代数技术。在信号处理中,尤其是在噪声去除方面,SVD展现出强大的能力。本文将深入探讨SVD降噪的原理,并...

    00-STM32_SVD.7z

    STM32_SVD,全称为System View Description,是ST Microelectronics(意法半导体)为STM32系列微控制器提供的一种系统视图描述文件格式。STM32是基于ARM Cortex-M内核的一系列高性能、低功耗的微处理器,广泛应用于...

Global site tag (gtag.js) - Google Analytics