`

Java利用hanlp完成语句相似度分析的案例详解

 
阅读更多

 

分享一篇hanlp分词工具使用的小案例,即利用hanlp分词工具分析两个中文语句的相似度的案例。供大家一起学习参考!

 

在做考试系统需求时,后台题库系统提供录入题目的功能。在录入题目的时候,由于题目来源广泛,且参与录入题目的人有多位,因此容易出现录入重复题目的情况。所以需要实现语句相似度分析功能,从而筛选出重复的题目并人工处理之。

下面介绍如何使用Java实现上述想法,完成语句相似度分析:

1、使用HanLP完成分词:

首先,添加HanLP的依赖:(jsoup是为了处理题干中的html标签,去除html标签得到纯文本的题干内容)

 

 



 

分词代码如下,需要处理html标签和标点符号:

 

private static List<String> getSplitWords(String sentence) {

        // 去除掉html标签

        sentence = Jsoup.parse(sentence.replace(" ","")).body().text();

        // 标点符号会被单独分为一个Term,去除之

        return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~@#¥……&*()——|{}【】‘;:”“'。,、? ".contains(s)).collect(Collectors.toList());

    }

 

2、合并分词结果,列出所有的词:



 

 

3、统计词频,得到词频构成的向量:

代码如下,其中allWords是上一步中得到的所有的词,sentWords是第一步中对单个句子的分词结果:

 



 

4、计算相似度(两个向量的余弦值):



 

 

 

以上所有方法的完整代码如下,使用SimilarityUtil.getSimilarity(String s1,String s2)即可得到s1s2的语句相似度:

 

package com.yuantu.dubbo.provider.questionRepo.utils;

 

import com.hankcs.hanlp.HanLP;

import com.hankcs.hanlp.dictionary.CustomDictionary;

import org.jsoup.Jsoup;

 

import java.util.ArrayList;

import java.util.Calendar;

import java.util.Collections;

import java.util.List;

import java.util.stream.Collectors;

 

public class SimilarityUtil {

    static {

        CustomDictionary.add("子类");

        CustomDictionary.add("父类");

    }

 

    private SimilarityUtil() {

    }

    

    /**

     * 获得两个句子的相似度

     *

     * @param sentence1

     * @param sentence2

     * @return

     */

    public static double getSimilarity(String sentence1, String sentence2) {

        List<String> sent1Words = getSplitWords(sentence1);

        System.out.println(sent1Words);

        List<String> sent2Words = getSplitWords(sentence2);

        System.out.println(sent2Words);

        List<String> allWords = mergeList(sent1Words, sent2Words);

 

        int[] statistic1 = statistic(allWords, sent1Words);

        int[] statistic2 = statistic(allWords, sent2Words);

 

        double dividend = 0;

        double divisor1 = 0;

        double divisor2 = 0;

        for (int i = 0; i < statistic1.length; i++) {

            dividend += statistic1[i] * statistic2[i];

            divisor1 += Math.pow(statistic1[i], 2);

            divisor2 += Math.pow(statistic2[i], 2);

        }

 

        return dividend / (Math.sqrt(divisor1) * Math.sqrt(divisor2));

    }

 

    private static int[] statistic(List<String> allWords, List<String> sentWords) {

        int[] result = new int[allWords.size()];

        for (int i = 0; i < allWords.size(); i++) {

            result[i] = Collections.frequency(sentWords, allWords.get(i));

        }

        return result;

    }

 

    private static List<String> mergeList(List<String> list1, List<String> list2) {

        List<String> result = new ArrayList<>();

        result.addAll(list1);

        result.addAll(list2);

        return result.stream().distinct().collect(Collectors.toList());

    }

 

    private static List<String> getSplitWords(String sentence) {

        // 去除掉html标签

        sentence = Jsoup.parse(sentence.replace(" ","")).body().text();

        // 标点符号会被单独分为一个Term,去除之

        return HanLP.segment(sentence).stream().map(a -> a.word).filter(s -> !"`~!@#$^&*()=|{}':;',\\[\\].<>/?~@#¥……&*()——|{}【】‘;:”“'。,、? ".contains(s)).collect(Collectors.toList());

    }

}

---------------------

 

 

 

  • 大小: 25.3 KB
  • 大小: 23.1 KB
  • 大小: 24.1 KB
  • 大小: 64.4 KB
分享到:
评论

相关推荐

    语句相似度研究中的骨架依存分析

    ### 语句相似度研究中的骨架依存分析 #### 一、引言 随着自然语言处理技术的发展,尤其是在机器翻译领域,如何有效地评估语句之间的相似度成为了关键问题之一。传统的方法,例如基于规则的机器翻译(Rule-Based ...

    基于领域本体的语句相似度研究.pdf

    - **结果分析**:通过对实验数据的分析,验证了基于领域本体的语句相似度计算方法能够有效地区分不同语句间的相似程度,并在智能答疑系统中发挥重要作用。 #### 结论 本文献深入探讨了如何通过领域本体来计算语句...

    论文研究-多特征融合的语句相似度计算模型.pdf

    提出了一种可以解决SVM分类算法中的多重共线性问题的因子分析方法。因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息,它既能大大减少参与数据建模的变量个数,简化支持向量机结构,减少支持向量...

    基于语句相似度计算的智能答疑系统机理研究.pdf

    本文主要探讨了基于语句相似度计算的智能答疑系统的设计与实现,旨在解决在线学习过程中答疑实时性差、准确度低和效率低的问题。智能答疑系统是人工智能在教育领域的一个重要应用,它利用自然语言处理技术,通过理解...

    语句相似度计算.zip

    标题中的“语句相似度计算”表明这是一个关于比较文本句子之间相似度的项目,而“基于Python的项目实现”提示我们整个实现是使用Python编程语言完成的。在给定的压缩包文件中,我们可以看到几个关键文件,这些文件将...

    Python实战语句相似度计算(毕设 + 课设).zip

    在这个"Python实战语句相似度计算"的项目中,我们将探讨如何利用Python来实现这个功能,尤其适用于毕业设计或课程设计的需求。 首先,我们需要了解几种常见的相似度计算方法。一种是基于编辑距离(Edit Distance)...

    Java-Java Switch语句详解教程

    Java Switch语句是Java编程语言中的一个控制流程结构,它提供了多路选择,允许程序根据变量的值执行不同的代码块。在Java中,Switch语句主要用于替代一系列的if...else if...else语句,使代码更加简洁、易读。本教程...

    Java案例详解1精通Java项目开发

    在本Java案例详解1精通Java项目开发中,我们将深入探讨如何使用Java技术构建高效、稳定的企业信息系统。这个案例主要基于Java编程语言,并结合SQL2000数据库管理系统,利用MyEclipse开发工具来实现。以下将详细介绍...

    人工智能开发项目深度学习项目源码带指导视频语句相似度计算

    人工智能开发项目深度学习项目源码带指导视频语句相似度计算提取方式是百度网盘分享地址

    38.java中的switch语句.zip

    38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip38.java中的switch语句.zip...

    《Java基础与案例开发详解》Part 1

    《Java基础与案例开发详解》Part 1 是一套全面深入的Java编程教程,旨在帮助初学者及有一定经验的开发者巩固和提升Java技能。本部分涵盖了Java语言的基础概念、语法以及实际应用,通过丰富的实例和章节视频教学...

    Java打印漂亮的SQL语句(被格式化的SQL语句)

    标题提及的"Java打印漂亮的SQL语句(被格式化的SQL语句)"就是一种解决方案,它利用特定的工具或库将原本杂乱无章的SQL转换为结构清晰、简洁易读的形式。 描述中提到的jar包"PrettySQLFormatter"正是这样一个工具,它...

    JAVA经典100个小案例

    9. **函数式编程**:Java 8引入了Lambda表达式和Stream API,案例会展示如何利用这些新特性进行函数式编程。 10. **多线程**:Java支持并发编程,案例会讲解如何创建和管理线程,以及同步和互斥的概念。 通过这些...

    java基础开发与案例详解代码

    Java是一种广泛使用的面向对象的编程...这个"java基础开发与案例详解的代码"资源是你深入理解Java编程的宝贵材料。通过仔细阅读和动手实践,你可以逐步掌握Java的核心概念和技术,从而在软件开发领域打下坚实的基础。

    Java软件开发实战 Java基础与案例开发详解 3-8 跳转语句 共7页.pdf

    ### Java软件开发实战:跳转语句详解 #### 3-8 跳转语句 在Java编程中,跳转语句是非常重要的控制结构之一,它们能够改变程序的执行流程,使程序更加灵活和高效。Java支持三种跳转语句:`break`、`continue`和`...

    Java实验-循环语句,for,while,do-while

    Java循环语句详解 Java中的循环语句是指在一个程序中,重复执行某些语句的语句。循环语句有三种基本形式:for循环、while循环和do-while循环。每种循环语句都有其特点和使用场景。在本实验中,我们将详细介绍这三种...

    Java软件开发实战 Java基础与案例开发详解 3-7 循环语句 共11页.pdf

    ### Java软件开发实战:循环语句详解 #### 1. 循环语句的重要性 循环语句在程序设计中占据着极为重要的位置。通过循环,我们可以避免重复编写相同的代码,提高程序的效率和可读性。Java语言提供了三种类型的循环...

    中文句子相似度计算算法

    这一问题直接影响到后续的相似度计算步骤,尤其是涉及到词法分析和句法分析时。 4. **词法分析和句法分析的准确率较低** 由于汉语词汇间没有明显的分隔标记,自动分词成为汉语句法分析的基础,但目前的技术尚无法...

    java基础案例与开发详解案例源码全

    1.1 Java语言发展简史2 1.2 认识Java语言3 1.2.1 Java语言特性3 1.2.2 JavaApplet4 1.2.3 丰富的类库4 1.2.4 Java的竞争对手5 1.2.5 Java在应用领域的优势7 1.3 Java平台的体系结构7 1.3.1 JavaSE标准版8 1.3.2 ...

    java根据excel生成 hive建表语句

    Java作为企业级应用开发的主要语言,经常被用来处理与数据相关的任务,包括从Excel文件读取数据并生成Hive建表语句。下面我们将详细探讨如何使用Java和Apache POI库来实现这一功能。 首先,Apache POI是Java中处理...

Global site tag (gtag.js) - Google Analytics