分享一篇hanlp分词工具使用的小案例,即利用hanlp分词工具分析两个中文语句的相似度的案例。供大家一起学习参考!
在做考试系统需求时,后台题库系统提供录入题目的功能。在录入题目的时候,由于题目来源广泛,且参与录入题目的人有多位,因此容易出现录入重复题目的情况。所以需要实现语句相似度分析功能,从而筛选出重复的题目并人工处理之。
下面介绍如何使用Java实现上述想法,完成语句相似度分析:
1、使用HanLP完成分词:
首先,添加HanLP的依赖:(jsoup是为了处理题干中的html标签,去除html标签得到纯文本的题干内容)
分词代码如下,需要处理html标签和标点符号:
private static List<String> getSplitWords(String sentence) {
// 去除掉html标签
sentence = Jsoup.parse(sentence.replace(" ","")).body().text();
// 标点符号会被单独分为一个Term,去除之
return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~!@#¥……&*()——|{}【】‘;:”“'。,、? ".contains(s)).collect(Collectors.toList());
}
2、合并分词结果,列出所有的词:
3、统计词频,得到词频构成的向量:
代码如下,其中allWords是上一步中得到的所有的词,sentWords是第一步中对单个句子的分词结果:
4、计算相似度(两个向量的余弦值):
以上所有方法的完整代码如下,使用SimilarityUtil.getSimilarity(String s1,String s2)即可得到s1和s2的语句相似度:
package com.yuantu.dubbo.provider.questionRepo.utils;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.dictionary.CustomDictionary;
import org.jsoup.Jsoup;
import java.util.ArrayList;
import java.util.Calendar;
import java.util.Collections;
import java.util.List;
import java.util.stream.Collectors;
public class SimilarityUtil {
static {
CustomDictionary.add("子类");
CustomDictionary.add("父类");
}
private SimilarityUtil() {
}
/**
* 获得两个句子的相似度
*
* @param sentence1
* @param sentence2
* @return
*/
public static double getSimilarity(String sentence1, String sentence2) {
List<String> sent1Words = getSplitWords(sentence1);
System.out.println(sent1Words);
List<String> sent2Words = getSplitWords(sentence2);
System.out.println(sent2Words);
List<String> allWords = mergeList(sent1Words, sent2Words);
int[] statistic1 = statistic(allWords, sent1Words);
int[] statistic2 = statistic(allWords, sent2Words);
double dividend = 0;
double divisor1 = 0;
double divisor2 = 0;
for (int i = 0; i < statistic1.length; i++) {
dividend += statistic1[i] * statistic2[i];
divisor1 += Math.pow(statistic1[i], 2);
divisor2 += Math.pow(statistic2[i], 2);
}
return dividend / (Math.sqrt(divisor1) * Math.sqrt(divisor2));
}
private static int[] statistic(List<String> allWords, List<String> sentWords) {
int[] result = new int[allWords.size()];
for (int i = 0; i < allWords.size(); i++) {
result[i] = Collections.frequency(sentWords, allWords.get(i));
}
return result;
}
private static List<String> mergeList(List<String> list1, List<String> list2) {
List<String> result = new ArrayList<>();
result.addAll(list1);
result.addAll(list2);
return result.stream().distinct().collect(Collectors.toList());
}
private static List<String> getSplitWords(String sentence) {
// 去除掉html标签
sentence = Jsoup.parse(sentence.replace(" ","")).body().text();
// 标点符号会被单独分为一个Term,去除之
return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~!@#¥……&*()——|{}【】‘;:”“'。,、? ".contains(s)).collect(Collectors.toList());
}
}
---------------------
相关推荐
### 语句相似度研究中的骨架依存分析 #### 一、引言 随着自然语言处理技术的发展,尤其是在机器翻译领域,如何有效地评估语句之间的相似度成为了关键问题之一。传统的方法,例如基于规则的机器翻译(Rule-Based ...
- **结果分析**:通过对实验数据的分析,验证了基于领域本体的语句相似度计算方法能够有效地区分不同语句间的相似程度,并在智能答疑系统中发挥重要作用。 #### 结论 本文献深入探讨了如何通过领域本体来计算语句...
提出了一种可以解决SVM分类算法中的多重共线性问题的因子分析方法。因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息,它既能大大减少参与数据建模的变量个数,简化支持向量机结构,减少支持向量...
本文主要探讨了基于语句相似度计算的智能答疑系统的设计与实现,旨在解决在线学习过程中答疑实时性差、准确度低和效率低的问题。智能答疑系统是人工智能在教育领域的一个重要应用,它利用自然语言处理技术,通过理解...
标题中的“语句相似度计算”表明这是一个关于比较文本句子之间相似度的项目,而“基于Python的项目实现”提示我们整个实现是使用Python编程语言完成的。在给定的压缩包文件中,我们可以看到几个关键文件,这些文件将...
在本Java案例详解1精通Java项目开发中,我们将深入探讨如何使用Java技术构建高效、稳定的企业信息系统。这个案例主要基于Java编程语言,并结合SQL2000数据库管理系统,利用MyEclipse开发工具来实现。以下将详细介绍...
人工智能开发项目深度学习项目源码带指导视频语句相似度计算提取方式是百度网盘分享地址
38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip...
《Java基础与案例开发详解》Part 1 是一套全面深入的Java编程教程,旨在帮助初学者及有一定经验的开发者巩固和提升Java技能。本部分涵盖了Java语言的基础概念、语法以及实际应用,通过丰富的实例和章节视频教学...
标题提及的"Java打印漂亮的SQL语句(被格式化的SQL语句)"就是一种解决方案,它利用特定的工具或库将原本杂乱无章的SQL转换为结构清晰、简洁易读的形式。 描述中提到的jar包"PrettySQLFormatter"正是这样一个工具,它...
9. **函数式编程**:Java 8引入了Lambda表达式和Stream API,案例会展示如何利用这些新特性进行函数式编程。 10. **多线程**:Java支持并发编程,案例会讲解如何创建和管理线程,以及同步和互斥的概念。 通过这些...
Java是一种广泛使用的面向对象的编程...这个"java基础开发与案例详解的代码"资源是你深入理解Java编程的宝贵材料。通过仔细阅读和动手实践,你可以逐步掌握Java的核心概念和技术,从而在软件开发领域打下坚实的基础。
### Java软件开发实战:跳转语句详解 #### 3-8 跳转语句 在Java编程中,跳转语句是非常重要的控制结构之一,它们能够改变程序的执行流程,使程序更加灵活和高效。Java支持三种跳转语句:`break`、`continue`和`...
Java循环语句详解 Java中的循环语句是指在一个程序中,重复执行某些语句的语句。循环语句有三种基本形式:for循环、while循环和do-while循环。每种循环语句都有其特点和使用场景。在本实验中,我们将详细介绍这三种...
《Java基础与案例实例详解》是一本针对Java编程语言初学者的详尽教程。它深入浅出地介绍了Java的核心概念和技术,旨在为读者提供坚实的编程基础,并通过丰富的案例实例帮助理解与应用。以下是对该书内容的详细解读:...
这一问题直接影响到后续的相似度计算步骤,尤其是涉及到词法分析和句法分析时。 4. **词法分析和句法分析的准确率较低** 由于汉语词汇间没有明显的分隔标记,自动分词成为汉语句法分析的基础,但目前的技术尚无法...
1.1 Java语言发展简史2 1.2 认识Java语言3 1.2.1 Java语言特性3 1.2.2 JavaApplet4 1.2.3 丰富的类库4 1.2.4 Java的竞争对手5 1.2.5 Java在应用领域的优势7 1.3 Java平台的体系结构7 1.3.1 JavaSE标准版8 1.3.2 ...
C语言switch语句教学案例分析PPT学习教案 本教学案例分析PPT学习教案的主要目的是帮助中职计算机专业学生学习C语言switch语句的格式、执行过程和应用。本教案从教学目标、学情分析、教学重点和难点、教学方法和教学...
6. 案例分析:通过具体的设计案例,展示如何将理论知识应用于实际问题解决中。例如,设计一个简单的数字信号处理器、实现一个特定的通信协议、开发一个图像处理模块等。 7. 其他高级主题:可能会探讨一些更高级的...
在Java开发中,将Java实体类转换为MySQL数据库的建表语句是一项常见的任务,它有助于快速构建数据库模型,尤其在使用ORM(对象关系映射)框架如Hibernate、MyBatis时更为便捷。本篇文章将深入探讨这个过程,并提供...