Java 计算两个字符串的相似度

Josh_Persistence

浏览: 1663565 次
性别:
来自: 上海

最近访客更多访客>>

reshinder

maxuanzhao

yh4s

依然任逍遥

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Interview

java 字符串相似度字符串距离动态规划

问题

许多程序会大量使用字符串。对于不同的字符串，我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为：
1.修改一个字符（如把“a”替换为“b”）。
2.增加一个字符（如把“abdd”变为“aebdd”）。
3.删除一个字符（如把“travelling”变为“traveling”）。
比如，对于“abcdefg”和“abcdef”两个字符串来说，我们认为可以通过增加/减少一个“g“的方式来达到目的。上面的两种方案，都仅需要一次操作。把这个操作所需要的次数定义为两个字符串的距离，给定任意两个字符串，你是否能写出一个算法来计算出它们的距离？

分析与解法

不难看出，两个字符串的距离肯定不超过它们的长度之和（我们可以通过删除操作把两个串都转化为空串）。虽然这个结论对结果没有帮助，但至少可以知道，任意两个字符串的距离都是有限的。
我们还是应该集中考虑如何才能把这个问题转化成规模较小的同样的问题。如果有两个串A=xabcdae和B=xfdfa，它们的第一个字符是相同的，只要计算A[2,…,7]=abcdae和B[2,…,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同，那么可以进行如下的操作（lenA 和lenB分别是A串和B串的长度）：
1．删除A串的第一个字符，然后计算A[2,…,lenA]和B[1,…,lenB]的距离。
2．删除B串的第一个字符，然后计算A[1,…,lenA]和B[2,…,lenB]的距离。
3．修改A串的第一个字符为B串的第一个字符，然后计算A[2,…,lenA]和B[2,…,lenB]的距离。
4．修改B串的第一个字符为A串的第一个字符，然后计算A[2,…,lenA]和B[2,…,lenB]的距离。
5．增加B串的第一个字符到A串的第一个字符之前，然后计算A[1,…,lenA]和B[2,…,lenB]的距离。
6．增加A串的第一个字符到B串的第一个字符之前，然后计算A[2,…,lenA]和B[1,…,lenB]的距离。

在这个题目中，我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以，可以将上面6个操作合并为：
1.一步操作之后，再将A[2,…,lenA]和B[1,…,lenB]变成相同字符串。
2.一步操作之后，再将A[1,…,lenA]和B[2,…,lenB]变成相同字符串。
3.一步操作之后，再将A[2,…,lenA]和B[2,…,lenB]变成相同字符串。

这样，很快就可以完成一个递归程序。

代码实现：

int calStringDis(string strA, int pABegin,int pAEnd,string strB, int pBBegin,int pBEnd)
{  
    if (pABegin > pAEnd)  
    {  
        if (pBBegin > pBEnd)  
            return 0;   
        else  
            return pBEnd - pBBegin + 1;  
    }  
    if (pBBegin > pBEnd)  
    {  
        if(pABegin > pAEnd)  
            return 0;  
        else  
            return pAEnd - pABegin + 1;  
    }  
    if (strA[pABegin] == strB[pBBegin])  
    {  
        return calStringDis(strA,pABegin+1,pAEnd,strB,pBBegin+1,pBEnd);  
    }  
    else  
    {  
        int t1 = calStringDis(strA,pABegin+1,pAEnd,strB,pBBegin+2,pBEnd);  
        int t2 = calStringDis(strA,pABegin+2,pAEnd,strB,pBBegin+1,pBEnd);  
        int t3 = calStringDis(strA,pABegin+2,pAEnd,strB,pBBegin+2,pBEnd);  
  
        return minValue(t1,t2,t3)+1;  
    }  
}

以上解法来自《编程之美》，有什么地方需要改进的呢？问题在于：在递归的过程中，有些数据被重复计算了。

很经典的可使用动态规划方法解决的题目，和计算两字符串的最长公共子序列相似。
设Ai为字符串A(a1a2a3 … am)的前i个字符（即为a1,a2,a3 … ai）
设Bj为字符串B(b1b2b3 … bn)的前j个字符（即为b1,b2,b3 … bj）
设 L(i,j)为使两个字符串和Ai和Bj相等的最小操作次数。
当ai==bj时显然 L(i,j) = L(i-1,j-1)
当ai!=bj时
若将它们修改为相等，则对两个字符串至少还要操作L(i-1,j-1)次
若删除ai或在bj后添加ai，则对两个字符串至少还要操作L(i-1,j)次
若删除bj或在ai后添加bj，则对两个字符串至少还要操作L(i,j-1)次
此时L(i,j) = min( L(i-1,j-1), L(i-1,j), L(i,j-1) ) + 1
显然，L(i,0)=i，L(0,j)=j, 再利用上述的递推公式，可以直接计算出L(i,j)值。

代码实现：

int calculateStringDistance(string strA, string strB)
{
  int lenA = (int)strA.length()+1;
  int lenB = (int)strB.length()+1;
  int **c = new int*[lenA];
  for(int i = 0; i < lenA; i++)
    c[i] = new int[lenB];
  // Record the distance of all begin points of each string
  //初始化方式与背包问题有点不同
  for(int i = 0; i < lenA; i++) c[i][0] = i;
  for(int j = 0; j < lenB; j++) c[0][j] = j;
  c[0][0] = 0;
  for(int i = 1; i < lenA; i++)
  {
  for(int j = 1; j < lenB; j++)
  {
    if(strB[j-1] == strA[i-1])
      c[i][j] = c[i-1][j-1];
    else
      c[i][j] = minValue(c[i][j-1], c[i-1][j], c[i-1][j-1]) + 1;
  }
  }
  int ret =  c[lenA-1][lenB-1];
  for(int i = 0; i < lenA; i++)
    delete [] c[i];
  delete []c;

  return ret;
}

参考：
http://www.cnblogs.com/yujunyong/articles/2004724.html

http://www.cnblogs.com/flyinghearts/archive/2011/03/22/1991988.html

0
顶

0
踩

分享到：

(Eclipse)设置JVM参数，查看堆大小 | Node.js安装和入门 - 2行代码让你能够启动 ...

2013-11-23 14:06
浏览 10587
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论