`

(转)java字符串的模糊匹配

 
阅读更多

今天因为业务需求,需要在java中进行字符串的模糊匹配,由于要比较的对象长度不同,也没有固定的组成规则,收集到下列三个方法解决问题
   方法一、
    public int indexOf(String str)
      返回指定子字符串在此字符串中第一次出现处的索引。返回的整数是
     this.startsWith(str, k)为 true 的最小 k值。
参数:str - 任意字符串。
返回:如果字符串参数作为一个子字符串在此对象中出现,则返回第一个这种子字符串的第一个字符的索引;如果它不作为一个子字符串出现,则返回-1。
    if(str1.indexOf("RO")>=0 ||str1.indexOf("EL")>=0 ||str1.indexOf("RO")>=0)
    {存在}
   方法二、
public boolean contains(CharSequence s)
  当且仅当此字符串包含指定的 char 值序列时,返回true。
   参数:s- 要搜索的序列(注意:String 类是实现CharSequence接口的一个实体类)
   返回:如果此字符串包含s,则返回 true,否则返回 false
   例子:
      Str.contains("12334")
      注意:,意思为,Str字符串中出现字符串“12345”五个字符中的任何一个,那么则返回true;
 方法三、通过正则表达式+matches方法
     publicboolean matches(String regex)
  告知此字符串是否匹配给定的正则表达式。
 
调用此方法的str.matches(regex)形式与以下表达式产生的结果完全相同:
Pattern.matches(regex,str)
参数:regex - 用来匹配此字符串的正则表达式
返回:当且仅当此字符串匹配给定的正则表达式时,返回 true


友情提示,要想真正的用好正则表达式,正确的理解元字符是最重要的事情。下表列出了所有的元字符和对它们的一个简短的描述。
元字符 描述
\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“\n”匹配字符“n”。“\\n”匹配一个换行符。序列“\\”匹配“\”而“\(”则匹配“(”。
^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。
$ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。
* 匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。
? 匹配前面的子表达式零次或一次。例如,“do(es)?”可以匹配“does”或“does”中的“do”。?等价于{0,1}。
{n} n是一个非负整数。匹配确定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。
{n,} n是一个非负整数。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。
{n,m} m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。
? 当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+?”将匹配单个“o”,而“o?”将匹配所有“o”。
.点 匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符,请使用像“(.|\n)”的模式。
(pattern) 匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0…$9属性。要匹配圆括号字符,请使用“\(”或“\)”。
(?:pattern) 匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。
(?=pattern) 正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?!pattern) 正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?<=pattern) 反向肯定预查,与正向肯定预查类似,只是方向相反。例如,“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”,但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern) 反向否定预查,与正向否定预查类似,只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”,但不能匹配“2000Windows”中的“Windows”。
x|y 匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”则匹配“zood”或“food”。
[xyz] 字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”。
[^xyz] 负值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“plin”。
[a-z] 字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。
\b 匹配一个单词边界,也就是指单词和空格间的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
\B 匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
\cx 匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c”字符。
\d 匹配一个数字字符。等价于[0-9]。
\D 匹配一个非数字字符。等价于[^0-9]。
\f 匹配一个换页符。等价于\x0c和\cL。
\n 匹配一个换行符。等价于\x0a和\cJ。
\r 匹配一个回车符。等价于\x0d和\cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[\f\n\r\t\v]。
\S 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于\x09和\cI。
\v 匹配一个垂直制表符。等价于\x0b和\cK。
\w 匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn 匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。
\num 匹配num,其中num是一个正整数。对所获取的匹配的引用。例如,“(.)\1”匹配两个连续的相同字符。
\n 标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。
\nm 标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。
\nml 如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。
\un 匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(©)。

               注意:在普通的正则表达式中,15个具有特殊意义的元字符需要进行转义:
             ( [ { } ] ) \ ^ - $ | ? * + .

字符串精确匹配
   public booleanequalsIgnoreCase(String anotherString)
将此 String 与另一个 String比较,不考虑大小写。如果两个字符串的长度相同,并且其中的相应字符都相等(忽略大小写),则认为这两个字符串是相等的。
在忽略大小写的情况下,如果下列至少一项为 true,则认为 c1 和c2 这两个字符相同。
这两个字符相同(使用 == 运算符进行比较)。
对每个字符应用方法 Character.toUpperCase(char) 生成相同的结果。
对每个字符应用方法 Character.toLowerCase(char) 生成相同的结果。
参数:
anotherString - 与此 String 进行比较的String。
返回:
如果参数不为 null,且这两个 String 相等(忽略大小写),则返回true;否则返回 false。

 

原文地址:http://www.2cto.com/kf/201304/203034.html

分享到:
评论

相关推荐

    模糊匹配算法java实现

    模糊匹配是指在两个字符串之间进行比较时,允许一定程度的不精确性,如字符差异、位置差异等。常见的模糊匹配算法有Levenshtein距离、Jaccard相似度、余弦相似度、 Soundex编码等。 1. **Levenshtein距离**:...

    递归实现字符串模糊匹配.java

    使用递归实现,字符串模糊匹配,看设置允许匹配错误数。

    正则表达式实现字符的模糊匹配功能示例

    2. 字符串模糊匹配表达式演示了如何使用正则表达式实现包含"张三"或"name"等任意字符的字符串搜索,表达式为:`^(.*张三.*name.*)$`。 3. 不包含特定字符串的表达式使用了负向前瞻断言`(?!...)`,它指定了一个位置...

    kmp字符串查找算法

    KMP(Knuth-Morris-Pratt)字符串查找算法是一种在主串中高效地查找子串的算法,由Donald Knuth、Vaughan Pratt和James H. Morris三位学者于1970年代提出。该算法避免了在匹配过程中对已匹配部分的重复比较,从而...

    正则表达式实现字符的模糊匹配功能示例.docx

    - **字符串模糊匹配**:`regex_containStr`定义了一个匹配任意包含“张三”且后面跟随“name”的字符串的正则表达式。 - **字符不包含特定字符串**:`regex_notcontainStr`定义了一个匹配不包含“转发”的字符串的...

    字符串对比,输入字符串即可得到对比结果

    在IT领域,字符串对比是一个常见的任务,特别是在文本处理...总之,字符串对比是一个多维度的问题,涉及到字符级别的比较、相似度计算、模糊匹配等多种技术。理解和掌握这些方法对于解决涉及文本处理的IT问题至关重要。

    java模糊查询方法

    根据提供的文件信息,标题为“java模糊查询方法”,描述中提到了“为了实现子字符串匹配查询”。虽然实际代码示例与模糊查询不直接相关,但我们可以基于这些信息生成相关的Java模糊查询知识点。 ### Java模糊查询...

    oracle遍历数据库查找字符串

    LIKE用于模糊匹配,允许使用通配符(%表示零个、一个或多个字符,_表示单个字符)。INSTR函数则用来查找子串在目标字符串中的位置,返回值为0表示未找到。但手工编写这些查询对于大规模数据库可能非常繁琐且耗时。 ...

    android客户端实现模糊查找

    )代表一个字符,非常适合进行模糊匹配。 4. **异步处理**:由于模糊查找可能涉及大量数据,为了保持界面流畅,通常会使用异步任务,如AsyncTask或者Retrofit+RxJava。这样可以在后台线程执行搜索,避免阻塞主线程。...

    Java实现的模糊匹配某文件夹下的文件并删除功能示例

    这个示例展示了如何在Java中实现一个模糊匹配文件名并删除的功能。以下是对代码的详细解释: 1. **模糊匹配原理**: 示例中的模糊匹配是基于文件名的前缀和后缀来实现的。`startsWith()` 和 `endsWith()` 方法用于...

    模糊字符串匹配:ruby的模糊字符串匹配库

    什么是模糊字符串匹配 Fuzzy-string-match是用于ruby的模糊字符串匹配库。 很快(用RubyInline用C编写) 它仅支持Jaro-Winkler距离算法。 该程序是从Lucene 3.0.2手动移植的。 (lucene是Java产品) 如果要添加...

    用Java实现的模糊搜索模块源码

    这里我们关注的是一个用Java实现的模糊搜索模块,它利用汉字的拼音进行数据库的模糊匹配。这个模块可能对那些需要处理大量中文数据,并希望提供用户友好的搜索体验的应用程序非常有用。 首先,我们需要理解Java在...

    在java List中进行模糊查询的实现方法

    这种方法基于Java的`java.util.regex.Pattern`和`java.util.regex.Matcher`类来实现模糊匹配。首先,创建一个正则表达式模式,然后遍历List中的每个元素,用这个模式去匹配对象的属性(例如Employee的`name`属性)。...

    字符串过滤工具类,不错的类

    2. **过滤算法**:常见的过滤算法有简单匹配(如关键词完全匹配)、模糊匹配(如正则表达式匹配)以及词干提取(如去除词缀只保留词干)。根据应用的具体场景,可能会选择不同复杂度的过滤算法。 3. **处理策略**:...

    J2ME中比较字符串是否存在包含关系的算法

    在Java 2 Micro Edition (J2ME) 开发过程中,经常需要处理字符串操作问题。一个常见的需求是判断一个字符串是否包含另一个字符串,这种操作对于模糊搜索、数据验证等场景非常重要。本文将深入探讨一种用于J2ME环境下...

    LD的两字符串相似度计算.zip

    2. **应用场景**:Levenshtein Distance常用于拼写检查、自动补全、模糊搜索和近似字符串匹配等领域。 3. **其他相似度度量**:除了Levenshtein Distance,还有Jaccard相似度、余弦相似度、Jaro-Winkler距离等其他...

    SuperMap Objects Java 模糊查询

    例如,如果我们有一个名为"Name"的属性字段,我们可以构造一个SQL查询来找出所有名字中包含特定字符串的对象: ```java String sql = "SELECT * FROM MyLayer WHERE Name LIKE '%查询字符%'"; ``` 这里的"%"是SQL中...

    Split-由任意个全角或半角空格分隔开的任意长度的字符串

    3. **模糊查询**:在数据库查询中,可以使用LIKE操作符结合通配符(如%)来实现模糊匹配。拆分后的关键词可以与数据库中的字段进行逐个比较。 4. **性能优化**:对于大量数据的查询,可能需要考虑性能优化,例如...

    比较字符串是否相似.rar

    5. **模糊匹配**:Jaccard相似度或Tf-Idf等方法用于衡量两个字符串的相似度,它们考虑了词汇的重叠程度,常用于文本分类和信息检索。 6. **余弦相似度**:在自然语言处理中,通过计算两个字符串向量的夹角余弦值来...

    Java替换中使用正则表达式实现中间模糊匹配的方法

    需要注意的是,这里的正则表达式只能模糊匹配中间不确定的字符串,如果中间有多个连续的子串满足条件,它们都会被替换。如果只想替换第一次出现的匹配项,可以使用`replaceFirst()`方法代替`replaceAll()`。 总结...

Global site tag (gtag.js) - Google Analytics