最近在做爬虫时的一点点心德,记录下来。
文档相似度计算,一般常用的就是余弦定理,代表性介绍的文章有:
google黑板报的数学之美系列十二 -- 余弦定理和新闻的分类(这个是网上的一遍原文转载,google的黑板报被河蟹了)
把文档量化然后通过余弦定理计算相似度,主要适用于爬虫的聚类统计,和文档分类,是一种比较简单的分类算法:
/**
* 计算文档相似度
*
* @param doci
* 准备比较的文档
* @param docj
* 样例文档
* @return
*/
public double calculateSimilary(Document doci, Document docj) {
Map<String, Integer> ifreq = doci.documentFreq();//文档词项词频
Map<String, Integer> jfreq = docj.documentFreq();
double ijSum = 0;
Iterator<Entry<String, Integer>> it = ifreq.entrySet().iterator();
while (it.hasNext()) {
Map.Entry<String,Integer> entry = it.next();
if(jfreq.containsKey(entry.getKey())) {
double iw = weight(entry.getValue());
double jw = weight(jfreq.get(entry.getKey()));
ijSum += (iw * jw);
}
}
double iPowSum = powSum(doci);
double jPowSum = powSum(docj);
return ijSum / (iPowSum * jPowSum);
}
/**
* @param document
* @return
*/
public double powSum(Document document) {
Map<String, Integer> mapfreq = document.documentFreq();
Collection<Integer> freqs = mapfreq.values();
double sum = 0;
for(int f : freqs) {
double dw = weight(f);
sum += Math.pow(dw, 2);
}
return Math.sqrt(sum);
}
/**
* 计算词项特征值
* @param wordfreq
* @return
*/
public double weight(float wordfreq) {
return Math.sqrt(wordfreq);
}
通过计算,两文档的余弦值越接近1,文档相似度越高。
当余弦值为1是,文档重叠。
其他java类:
public interface Document {
/**
* 获取文档词频
* @param content
* @return {@link Map}
*/
public Map<String, Integer> segment();
public Map<String, Integer> documentFreq();
}
public class DocumentIpml implements Document {
private String content;
private IKSegmentation ikSegmentation;
private Logger logger = Logger.getLogger("DocumentIpmlLogger");
private Map<String, Integer> dfreq;
public DocumentIpml(String cont) {
this.content = cont;
}
public Map<String, Integer> documentFreq() {
if(dfreq == null || dfreq.isEmpty()) {
dfreq = segment();
return dfreq;
}
return dfreq;
}
public Map<String, Integer> segment() {
if(this.content == null || content.isEmpty()) {
logger.log(Level.WARNING, "document content can not be empty");
return null;
}
if(ikSegmentation == null)
ikSegmentation = new IKSegmentation(new StringReader(content), true);
else
ikSegmentation.reset(new StringReader(content));
Lexeme lexeme = null;
Map<String, Integer> mapfreq = new HashMap<String, Integer>();
try {
while((lexeme = ikSegmentation.next()) != null) {
if(!mapfreq.containsKey(lexeme.getLexemeText())) {
mapfreq.put(lexeme.getLexemeText(), 1);
continue;
}
int freq = mapfreq.get(lexeme.getLexemeText());
mapfreq.put(lexeme.getLexemeText(), ++freq);
}
} catch (IOException e) {
logger.log(Level.SEVERE, "", e);
return null;
}
return mapfreq;
}
}
实现结果:
1.txt和2.txt的相似度为:0.32460869971007195
1.txt和3.txt的相似度为:0.21837417258281094
1.txt和94.txt的相似度为:0.1805190131222515
1.txt和77.txt的相似度为:0.14018416797440844
txt6和77.txt的相似度为:0.1979109275388269
这几遍文档在附件中。
如果对文档相似度计算方式有更好的做法,欢迎指导:
我的邮箱:
liuziheng5726@gmail.com
分享到:
相关推荐
"word文档相似度计算"这个主题涉及到如何衡量两个或多个Word文档之间的内容相似性,这对于论文查重、文本抄袭检测、信息检索优化等多个场景都有广泛应用。在这个过程中,编辑距离(Edit Distance)是一种常用的算法...
在实际操作中,你可能需要结合以上知识,编写代码实现一个文档相似度计算系统。这个过程中,理解各种技术的工作原理、熟练运用编程工具,以及有效地调试和优化代码,都将对你的学习和技能提升大有裨益。
本实验“检验文档相似度”旨在深入理解算法分析与设计的原理,通过具体实践来掌握文档相似度计算的方法。下面将详细讨论相关知识点。 一、文档表示方法 在进行文档相似度检验之前,首先需要将文档转化为计算机可以...
通过对文档相似度计算方法的总结可以看出,合理的预处理步骤和有效的相似度计算方法是实现高效文档相似度评估的关键。此外,选择合适的相似度度量标准也是提高准确率的重要因素之一。随着自然语言处理技术的发展,...
XML文档结构相似度计算方法,计算机工程系
本资源摘要信息主要介绍了大规模数据挖掘中的第三章学习笔记一,涵盖了数据挖掘中的基本问题、相似度计算方法、集合相似度算法、文档相似度计算方法、Locality-Sensitive Hashing(LSH)算法、Jaccard相似度算法、...
语义相似度计算在自然语言处理中的应用非常广泛,从最基本的文档相似度计算,到复杂的信息检索、自动问答系统、机器翻译以及情感分析等,都需要用到准确的语义相似度计算。而高频词滤波是文本处理中的一个常用技术,...
在文档相似度计算中,直接逐字符比较并不总是可行,因为很多文档可能存在额外的非主要内容,如网页的Logo、导航栏等。这时,Shingling方法就显得很有用。Shingling通过将连续的k个字符组合成一个元素,将文档转化为...
在文档相似度计算中,由于实际文档往往包含大量非主要内容,如LOGO、导航栏等,因此无法直接通过逐字符比较来确定相似性。Shingling方法应运而生。它将相邻的k个字符组合成一个元素,形成新的集合。例如,对于字符串...
基于Hadoop的文本相似度计算是一个重要的应用,常用于信息检索、推荐系统和文档分类等场景。在这个项目中,我们利用TF-IDF(词频-逆文档频率)和向量空间模型来计算文本之间的相似性,同时采用IKAnalyzer作为中文...
在IT领域,词汇相似度计算是一项重要的任务,尤其在自然语言处理(NLP)和信息检索(IR)中。此项目“基于知网的词汇相似度计算源代码”旨在利用知网的数据资源来实现高效的词汇相似度计算。知网是中国最大的学术...
例如,在基于实例的机器翻译、面向常见问题(FAQ)的问答系统、以及多文档摘要系统等领域,都需要依赖精确的相似度计算来提升系统的性能。目前,句子相似度计算通常被划分为三个层次:语法相似度、语义相似度和语用...
文档相似度计算是中文文档相似性检测的核心环节,其目的在于量化两个文档之间的相似程度。常用的文档相似度计算方法包括: ##### 3.1 余弦相似度算法 余弦相似度是一种常用的文本相似度计算方法,它通过计算两个...
在IT领域,尤其是在信息检索与自然语言处理方向,短文本相似度计算是一个核心议题,它涉及到如何有效地评估两段简短文本之间的语义关联性。本文将深入探讨短文本相似度计算的关键方法与挑战,基于《短文本相似度计算...
这在计算语义相似度时尤其有用,因为选择正确的词义可以提高相似度计算的准确性。 基于路径的语义相似度计算通常考虑两个词在WordNet词汇树中的最短路径长度。路径越短,两个词在语义上的相似度越高。例如,如果两...
人工智能大作业_基于同义词林的语义相似度计算 词义相似度计算在很多领域中都有广泛的应用,例如信息检索、 信息抽取、文本分类、词义排歧、基于实例的机器翻译等等。国内很 多论文主要是基于同义词林和知网来计算的...