package com.keertech.mwb.util;
import java.text.NumberFormat;
import java.util.Locale;
/**
* 比较两个字符串的相似度
*/
public class Similarity {
public static void main(String[] args) {
String strA = "我是湖南人dfgh";
String strB = "我是湖南人";
double result=SimilarDegree(strA, strB);
if(result>=0.7){
System.out.println("相似度很高!" +similarityResult(result)+result);
}else{
System.out.println("相似度不高"+similarityResult(result)+result);
}
System.out.println();
}
/**
* 相似度转百分比
*/
public static String similarityResult(double resule){
return NumberFormat.getPercentInstance(new Locale( "en ", "US ")).format(resule);
}
/**
* 相似度比较
* @param strA
* @param strB
* @return
*/
public static double SimilarDegree(String strA, String strB){
String newStrA = removeSign(strA);
String newStrB = removeSign(strB);
int temp = Math.max(newStrA.length(), newStrB.length());
int temp2 = longestCommonSubstring(newStrA, newStrB).length();
return temp2 * 1.0 / temp;
}
private static String removeSign(String str) {
StringBuffer sb = new StringBuffer();
for (char item : str.toCharArray())
if (charReg(item)){
//System.out.println("--"+item);
sb.append(item);
}
return sb.toString();
}
private static boolean charReg(char charValue) {
return (charValue >= 0x4E00 && charValue <= 0X9FA5)
|| (charValue >= 'a' && charValue <= 'z')
|| (charValue >= 'A' && charValue <= 'Z')
|| (charValue >= '0' && charValue <= '9');
}
private static String longestCommonSubstring(String strA, String strB) {
char[] chars_strA = strA.toCharArray();
char[] chars_strB = strB.toCharArray();
int m = chars_strA.length;
int n = chars_strB.length;
int[][] matrix = new int[m + 1][n + 1];
for (int i = 1; i <= m; i++) {
for (int j = 1; j <= n; j++) {
if (chars_strA[i - 1] == chars_strB[j - 1])
matrix[i][j] = matrix[i - 1][j - 1] + 1;
else
matrix[i][j] = Math.max(matrix[i][j - 1], matrix[i - 1][j]);
}
}
char[] result = new char[matrix
[n]];
int currentIndex = result.length - 1;
while (matrix
[n] != 0) {
if (matrix
[n] == matrix
[n - 1])
n--;
else if (matrix
[n] == matrix[m - 1][n])
m--;
else {
result[currentIndex] = chars_strA[m - 1];
currentIndex--;
n--;
m--;
}
}
return new String(result);
}
}
相关推荐
字符串相似度算法是一种衡量两个字符串之间相似度的方法,广泛应用于自然语言处理、数据挖掘、机器学习等领域。在本文中,我们将讨论一种常用的字符串相似度算法:Levenshtein Distance。 什么是Levenshtein ...
在推荐系统领域,为了衡量两个字符串之间的相似性,通常会采用多种算法,其中余弦相似度算法因其简单高效而被广泛采用。该算法的核心思想是通过计算两个向量的夹角余弦值来评估它们之间的相似性。当两个向量的夹角越...
Levenshtein Distance(简称LD),又称编辑距离,是衡量两个字符串相似度的一种方法。这个概念由俄国科学家Vladimir Levenshtein在1965年提出,因此得名。 编辑距离定义了将一个字符串转换成另一个字符串所需的最少...
Java字符串相似度算法是用于衡量两个字符串之间相似程度的一种计算方法。在文本处理、信息检索、数据清洗等领域中,这种算法具有重要的应用价值。这里主要介绍了一种基于Levenshtein距离的Java实现。 Levenshtein...
总结起来,这个Java项目提供了计算两个字符串相似度的方法,主要利用了最长公共子序列的概念和动态规划算法。通过理解并实现这个项目,开发者可以增强对字符串处理、动态规划以及相似度计算的理解,这对进行文本分析...
两个字符串的相似度算法实现——编辑距离之Levenshtein距离
这个项目以Java和JSP技术为基础,实现了一个计算两个字符串相似度的功能,并能显示运行时间,这有助于理解算法的效率。 首先,我们需要了解字符串相似度的计算方法。常见的算法有Levenshtein距离、Jaccard相似度、...
,用于计算两个字符串之间的归一化距离或相似度分数。 0.0 分表示两个字符串绝对不相似,1.0 表示绝对相似(或相等)。 介于两者之间的任何内容都表示两个字符串的相似程度。例子在这个简单的例子中,我们想要计算...
“成本”列给出了计算成本的估算值,以分别计算长度为m和n的两个字符串之间的相似度。 归一化? 公制? 类型 成本 典型用法 距离 没有 是 O(米* n) 1 距离相似 是 没有 O(米* n) 1 距离 没有 没有 O(米* n...
java根据不同的比较条件对比两个或两个以上的字符之间的相似度
Java可以通过Pinyin4j库转换汉字为拼音,然后使用Levenshtein距离或其他字符串相似度算法比较拼音的相似度。 **概念相似度**涉及到更高层次的语义理解,通常基于本体论或知识图谱。Java的OWL API可以处理OWL(Web ...
最小编辑距离(Minimum Edit Distance, 简称MED)是一种衡量两个字符串相似度的方法,它在计算机科学,尤其是文本处理、信息检索、生物信息学等领域有着广泛应用。这个概念由俄国数学家Vladimir Levenshtein在1965年...
它的思路就是从两个字符串的左边开始比较,记录已经比较过的子串相似度(实际上叫做距离),然后进一步得到下一个字符位置时的相似度。 编辑距离的伪算法可以用 Java 实现,下面是一个示例代码: ```java public ...
判断两个字符串的相似度 java 相似度 string
余弦相似度是通过两个向量的内积除以它们的模长乘积来计算,其取值范围在-1到1之间,1表示完全相同,-1表示完全不同。 IKAnalyzer是一款针对中文的开源分词工具,它基于Java实现,能够很好地处理中文的分词问题。IK...
1. **Levenshtein距离**:Levenshtein距离是一种衡量两个字符串相似度的方法,定义为由一个字符串转换成另一个字符串最少的单字符编辑操作次数(插入、删除或替换)。Java中可以自定义实现,或者使用开源库Apache ...
"Java基于余弦方法实现的计算相似度算法示例" 本文主要介绍了Java基于余弦方法实现的计算相似度算法,简单说明了余弦相似性的概念、...通过这种算法,我们可以计算两个字符串之间的相似度,从而应用于文件比较等领域。
得到分词结果后,可以将两个文本的分词结果转化为SimHash值,然后通过比较这些哈希值的汉明距离来确定相似度。最后,根据计算出的汉明距离,可以转换为百分比形式,方便直观地展示文本的相似程度。 总的来说,本...
5. **相似度计算**:通过比较两个文本的SimHash值,计算Hamming距离(不同位数的数量),一般来说,Hamming距离越小,文本相似度越高。 在Java中,我们可以自定义`SimHash.java`类来实现上述过程。类中可以包括分词...
通过编辑距离算法对两字符串相似度对比后顺序取出所有公共子串