`
chembo
  • 浏览: 940887 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

正则表达式判断重复词

阅读更多
使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。

后向引用用于重复搜索前面某个分组匹配的文本。例如,\1代表分组1匹配的文本。难以理解?请看示例:

\b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go, 或者kitty kitty。这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(\s+),最后是分组1中捕获的内容(也就是前面匹配的那个单词)(\1)。

你也可以自己指定子表达式的组名。要指定一个子表达式的组名,请使用这样的语法:(?<Word>\w+)(或者把尖括号换成'也行:(?'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k<Word>,所以上一个例子也可以写成这样:\b(?<Word>\w+)\b\s+\k<Word>\b。

例:判断含有三个重复词汇的正则:
\b(\w+)\b\s+\1\b\s+\1\b
分享到:
评论

相关推荐

    使用正则表达式检测字符串中重复出现的词

    5. **筛选重复词**:找出出现次数大于1的单词。 ```python repeated_words = [word for word, count in word_count.items() if count &gt; 1] ``` 6. **输出结果**:打印出重复的词。 ```python print("重复的词有:",...

    java_zhengze.rar_正则表达式_正则表达式 java

    正则表达式是编程语言中用于模式匹配和字符串处理的强大工具,在Java中也不例外。Java的正则表达式功能强大,可以用于验证输入、提取信息、替换文本等多种场景。本资料"java_zhengze.rar"提供了对Java正则表达式的...

    js正则表达式详解

    例如,要匹配美国的社会安全号码999-99-9999,可以使用正则表达式`/\d{3}-\d{2}-\d{4}/`,其中`\d`表示数字,`{n}`表示重复n次。如果允许连字符出现或者不出现,可以在连字符后加上`?`表示可选,如`/\d{3}-?\d{2}-?\...

    java正则表达式教程html版带目录

    - **String类的matches()方法**:直接判断字符串是否符合某个正则表达式。 3. **匹配操作** - **find()**:在输入序列中找到正则表达式的匹配项。 - **group()**:返回匹配的子字符串。 - **start()** 和 **end...

    Python-使用确定性有限自动机的低级正则表达式库

    1. 正则表达式语法:包括基本的字符类、量词、选择、重复和分组。 2. 确定性有限自动机的构建:如何从正则表达式构造DFA,理解状态转移矩阵和状态转换函数。 3. 字符串匹配算法:理解DFA如何逐个字符地处理输入字符...

    正则表达式,正则表达式

    ### 正则表达式知识点详解 #### 一、正则表达式基础概念 正则表达式(Regular Expression),简称regex或regexp,是一种用于处理字符串的强大工具。它通过一系列简短的符号来描述一种搜索模式,可以用来查找、替换...

    正则表达式

    这些复杂的模式使用的正则表达式语法指定了该表达式中每个元素要重复出现的次数. 指定复制的字符总是出现在它们所作用的模式后面.由于某种复制类型相当常用.所以有一些特殊的字符专门用于表示它们.例如: +号匹配的...

    正则表达式入门视频课程

    ### 正则表达式入门知识点详解 #### 一、正则表达式的定义与起源 正则表达式(Regular Expression)是一种强大的文本处理工具,能够帮助我们实现对字符串的强大控制功能,包括查找、替换、提取等操作。在计算机...

    python正则表达式

    另外,还涉及了贪婪模式和非贪婪模式的概念,以及数量词在正则表达式中的两种行为模式。Python中的正则表达式使用反斜杠作为转义字符,这可能导致一些使用上的困惑,但可以通过原始字符串(原生字符串)来解决这一...

    C++Regex正则表达式

    - Example4:可能涉及到使用量词进行重复匹配的代码。 - Example5:可能涵盖了分组和捕获的用法。 通过阅读这些示例,你可以更好地理解C++中正则表达式的实际应用。 总之,C++的Regex正则表达式为开发者提供了强大...

    正则表达式的入门

    正则表达式的基本语法包括字符集、重复、选择、分组以及位置匹配等元素。 字符集允许你指定一组字符,例如`[abc]`匹配任何一个'a'、'b'或'c'。`.`字符代表任意单个字符,而`\d`表示数字,`\w`代表字母数字字符。`*`...

    一些实用的正则表达式

    ### 正则表达式知识点详解 #### 一、正则表达式基础介绍 正则表达式(Regular Expression)是一种强大的文本处理工具,在编程语言中广泛应用于字符串搜索与替换操作。它能够帮助开发者快速定位并处理特定格式的...

    学习正则表达式(js、C#)

    - **编译正则表达式**:对于重复使用的正则表达式,可以先将其编译,以提高匹配效率。 总结来说,正则表达式是处理文本数据不可或缺的工具,无论是JavaScript还是C#,都有强大的支持来使用正则表达式。通过本文的...

    RegexBuddy Manual

    包括字面量字符、字符类或字符集、点匹配任意字符、字符串的开始和结束、单词边界、管道符号的使用、可选项、星号和加号的重复用法、圆括号进行分组、命名捕获组、Unicode正则表达式、正则表达式的匹配模式、原子组...

    java实现敏感词过滤

    - **词语边界**:避免中间的字符被误判为敏感词的一部分,可以使用正则表达式的边界匹配符或在字节流遍历时加入边界判断。 在实际开发中,还可以利用已有的Java库,如`Apache Commons Lang`的`StringUtils`类,或者...

    php实现的完整中文分词类

    正则表达式则用于处理字符串的遍历和匹配。 下面是一个基本的PHP中文分词类的设计思路: 1. **类定义**:创建一个名为`ChineseTokenizer`的类,包含私有属性如字典数组和分词结果数组。 2. **构造函数**:在构造...

    Python库 | regex-2015.05.10-cp27-none-win_amd64.whl

    2. **条件表达式**:`regex`支持在正则表达式中嵌入条件判断,允许根据之前匹配的部分来决定接下来是否执行某个子模式。 3. **递归模式**:这使得正则表达式可以自我包含,能够在表达式中嵌套使用,处理更复杂的...

    perl语言编程(上)

    本章详细介绍了正则表达式的使用方法,包括基本的匹配和替换操作,以及如何通过修饰词改变正则表达式的行为。 第六章子过程则介绍了子过程的语法、语意、参数列表技巧、错误指示、范围问题、传入引用等。子过程是...

    2014年第五届蓝桥杯预赛题目JAVA软件开发高职高专组.pdf

    ”),这可能表明测试题目中涉及到正则表达式的使用,即在Java中使用正则表达式进行字符串模式匹配和处理。 由于文档内容是通过OCR扫描得到的,部分文字可能有识别错误,但上述信息是根据现有内容推断出的IT知识。...

    javase01学习文档

    1. `matches()`: 判断字符串是否完全匹配给定的正则表达式。 2. `split()`: 使用正则表达式分割字符串成数组。 3. `replaceAll()`: 替换字符串中符合正则模式的部分。 ### Object类 所有Java类的根类,提供了对象...

Global site tag (gtag.js) - Google Analytics