最近在做爬虫时的一点点心德,记录下来。
文档相似度计算,一般常用的就是余弦定理,代表性介绍的文章有:
google黑板报的数学之美系列十二 -- 余弦定理和新闻的分类(这个是网上的一遍原文转载,google的黑板报被河蟹了)
把文档量化然后通过余弦定理计算相似度,主要适用于爬虫的聚类统计,和文档分类,是一种比较简单的分类算法:
/**
* 计算文档相似度
*
* @param doci
* 准备比较的文档
* @param docj
* 样例文档
* @return
*/
public double calculateSimilary(Document doci, Document docj) {
Map<String, Integer> ifreq = doci.documentFreq();//文档词项词频
Map<String, Integer> jfreq = docj.documentFreq();
double ijSum = 0;
Iterator<Entry<String, Integer>> it = ifreq.entrySet().iterator();
while (it.hasNext()) {
Map.Entry<String,Integer> entry = it.next();
if(jfreq.containsKey(entry.getKey())) {
double iw = weight(entry.getValue());
double jw = weight(jfreq.get(entry.getKey()));
ijSum += (iw * jw);
}
}
double iPowSum = powSum(doci);
double jPowSum = powSum(docj);
return ijSum / (iPowSum * jPowSum);
}
/**
* @param document
* @return
*/
public double powSum(Document document) {
Map<String, Integer> mapfreq = document.documentFreq();
Collection<Integer> freqs = mapfreq.values();
double sum = 0;
for(int f : freqs) {
double dw = weight(f);
sum += Math.pow(dw, 2);
}
return Math.sqrt(sum);
}
/**
* 计算词项特征值
* @param wordfreq
* @return
*/
public double weight(float wordfreq) {
return Math.sqrt(wordfreq);
}
通过计算,两文档的余弦值越接近1,文档相似度越高。
当余弦值为1是,文档重叠。
其他java类:
public interface Document {
/**
* 获取文档词频
* @param content
* @return {@link Map}
*/
public Map<String, Integer> segment();
public Map<String, Integer> documentFreq();
}
public class DocumentIpml implements Document {
private String content;
private IKSegmentation ikSegmentation;
private Logger logger = Logger.getLogger("DocumentIpmlLogger");
private Map<String, Integer> dfreq;
public DocumentIpml(String cont) {
this.content = cont;
}
public Map<String, Integer> documentFreq() {
if(dfreq == null || dfreq.isEmpty()) {
dfreq = segment();
return dfreq;
}
return dfreq;
}
public Map<String, Integer> segment() {
if(this.content == null || content.isEmpty()) {
logger.log(Level.WARNING, "document content can not be empty");
return null;
}
if(ikSegmentation == null)
ikSegmentation = new IKSegmentation(new StringReader(content), true);
else
ikSegmentation.reset(new StringReader(content));
Lexeme lexeme = null;
Map<String, Integer> mapfreq = new HashMap<String, Integer>();
try {
while((lexeme = ikSegmentation.next()) != null) {
if(!mapfreq.containsKey(lexeme.getLexemeText())) {
mapfreq.put(lexeme.getLexemeText(), 1);
continue;
}
int freq = mapfreq.get(lexeme.getLexemeText());
mapfreq.put(lexeme.getLexemeText(), ++freq);
}
} catch (IOException e) {
logger.log(Level.SEVERE, "", e);
return null;
}
return mapfreq;
}
}
实现结果:
1.txt和2.txt的相似度为:0.32460869971007195
1.txt和3.txt的相似度为:0.21837417258281094
1.txt和94.txt的相似度为:0.1805190131222515
1.txt和77.txt的相似度为:0.14018416797440844
txt6和77.txt的相似度为:0.1979109275388269
这几遍文档在附件中。
如果对文档相似度计算方式有更好的做法,欢迎指导:
我的邮箱:
liuziheng5726@gmail.com
分享到:
相关推荐
基于Qt开发的截图工具.zip 截图工具(QScreenShot) Qt编写的一款截图工具。 特点 - 支持全屏截图 - 支持自定义截图 - 支持捕获窗口截图 - 支持固定大小窗口截图 - 颜色拾取 - 图片编辑 - 图片上传到wordpress 环境 Qt6.2 QtCreate 8
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
基于ASP.NET技术的班级展示网站构建资源,是一套针对教育机构或学生团体,旨在通过ASP.NET框架开发班级风采展示平台的指导资料或教程。此资源详细介绍了如何利用ASP.NET的强大功能,快速搭建一个功能完善、界面友好的在线班级展示平台。 该资源涵盖了从需求分析、数据库设计、前端页面制作到后端逻辑实现的全过程。通过实例演示,指导用户如何设置班级信息、学生风采展示、活动公告、图片上传与浏览等核心功能模块。同时,结合ASP.NET的MVC架构,实现了前后端分离,提高了代码的可维护性和可扩展性。 此外,该资源还提供了丰富的代码示例和注释,帮助开发者深入理解ASP.NET框架的工作原理,掌握如何运用其强大的数据库操作、用户认证与授权等特性。对于初学者来说,这是一份难得的入门教程;而对于有一定经验的开发者,则是一份提升技能的参考资料。 总之,基于ASP.NET技术的班级展示网站构建资源,是教育机构和学生团体实现班级风采在线展示的理想选择,也是开发者学习ASP.NET框架应用的宝贵资源。
基于springboot的流浪动物管理系统源码数据库文档.zip
基于springboot+vue的实践性教学系统源码数据库文档.zip
基于Python+Django家居全屋定制系统源码数据库文档.zip
Umi-OCR-main.zip
基于springboot复兴村医疗管理系统源码数据库文档.zip
基于springboot二手物品交易系统源码数据库文档.zip
2024年西安外事学院数学建模校赛题目.zip
基于springboot医疗废物管理系统源码数据库文档.zip
GEE训练教程
内容概要:本文详细介绍了Spring Boot的设计和应用,涵盖了从基本概念到高级用法的全方位教学。首先通过环境搭建、首个项目创建、核心概念解析等步骤帮助读者快速上手。接着阐述了Spring Boot的设计原则与最佳实践,强调代码整洁和系统可维护性。最后,提供了两个实战案例:构建简单的RESTful API和电商网站后台管理系统,涉及项目结构、依赖配置、数据库设计、实体类与控制器的创建等内容,指导读者进行真实项目的开发。 适合人群:适合初学者到中级开发者的Java开发人员,尤其是对企业级应用开发感兴趣的人士。 使用场景及目标:①帮助开发者全面掌握Spring Boot的基本用法及其设计理念;②提供实用的实战案例和资源,使读者能够在实际项目中熟练应用Spring Boot技术。 阅读建议:跟随文章提供的步骤逐步操作,并结合实际开发需求灵活运用所学知识。建议多动手练习,加强对Spring Boot的理解和掌握。
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
内容概要:本文详细介绍了一个课程考试系统的设计与开发过程,涵盖语言教程、实战案例和项目资源。主要内容包括:选择Java作为开发语言,详细讲解Java基础语法和Web开发基础;实战案例包括用户管理、课程管理和考试管理模块的实现;提供了项目结构、数据库设计和依赖管理的详细示例。 适合人群:适用于初学者和有一定经验的开发者,希望通过实际项目掌握课程考试系统的设计与开发。 使用场景及目标:帮助学习者全面提升从理论到实践的能力,最终能够独立完成一个完整的课程考试系统。无论是学习编程基础还是进阶实战,本文都提供了全面的指导。 其他说明:项目涉及多个关键技术和知识点,如Servlet、JSP、JDBC、MVC模式等,有助于深入理解和应用这些技术。此外,还包括项目部署和运行的具体步骤,方便学习者快速搭建和测试系统。
《伯牙鼓琴》教学课件.pptx
基于springboot面向社区的智能化健康管理系统研究源码数据库文档.zip
基于springboot+javaweb宿舍管理系统源码数据库文档.zip
基于SpringBoot的遥感影像共享系统源码数据库文档.zip
门禁系统方案