`
hereson3
  • 浏览: 163049 次
  • 性别: Icon_minigender_2
  • 来自: 广州
社区版块
存档分类
最新评论

使用正则表达式处理句法分析树

阅读更多

1, 正则表达式如何处理嵌套结构

a.        .net 处理嵌套结构的方法

举例说明:

问题描述:从 before (nope (yes (here) okay) after 中匹配得到最大的被 ”()” 包含的文本。即显示红色的部分。

答案: .net \((?>[^()]+|\((?<DEPTH>)|\)(?<-DEPTH>))*(?(DEPTH)(?!))\)

        分析:

        (1) \( 匹配左括号; \) 匹配右括号; [^()]+ 匹配非括号字符串

(2) (?> .) 固化分组,固化分组的作用在于:一旦括号内的子表达式匹配之后,匹配的内容就固定下来,在接下来的匹配过程中不会改变,除非整个固化分组的括号都被弃用,在外部回溯中重新应用。该处使用固化分组的作用在于提高匹配速度。

(3) DEPTH 的使用 :DEPTH 实际使用了命名捕获的 <?>…> ,它总是能够匹配成功。正则表达式引擎的回溯堆栈保存了当前匹配成功分组的相关信息,而 (?<DEPTH>) 跟在 \( 后,所以它的成功匹配便可以保存 \( 的个数。跟随在 \) 后的结构 (?<-DEPTH>) .NET 独有的结构,它会在匹配 \) 成功之后去掉最近的 ”successful DEPTH” 标记。如果不存在这样的 ”successful DEPTH” 标记,就会报告失败,整个正则表达式匹配失败: 1, 每匹配一个 \( 会把正则表达式保存的当前括号嵌套深度值加 1 2, 每匹配一个 \) 会把正则表达式保存的当前括号嵌套深度值减 1 3, (?(DEPTH)(?!)) 确保匹配最后的 \) 时,深度为 0

2, 如何使用正则表达式处理句法分析树

如何使用正则表达式识别一棵类似如下表示的句法分析树?

(TOP (S (NPB (DT The) (NN question) ) (VP (VBZ remains) (SBAR-A (IN whether) (S-A (NPB (PRP they) ) (VP (MD will) (VP-A (VB be) (ADJP (JJ able) (SG (VP (TO to) (VP-A (VB help) (PUNC. us.) ) ) ) ) ) ) ) ) ) ) )

答案: \((?>[^()]+|\([^()\s]+\s(?<DEPTH>)|\)\s(?<-DEPTH>))*(?(DEPTH)(?!))\)

分析类似。

3, 使用正则表达式处理句法分析树实例

a.        使用正则表达式获取所有的叶结点 :    \((?<POS>[^()]+)\s(?<Leaf>[^()]+)\)

b.       使用正则表达式获取所有的名词短语 NP:

\(NP\s(?>[^()]+|\([^()\s]+\s(?<DEPTH>)|\)\s(?<-DEPTH>))*(?(DEPTH)(?!))\)

c.        使用正则表达式获取满足如下性质的子树

        i.   该子句的标记为 SBAR[^()]*

                   ii.       该子句根节点的第一个儿子为一个词性为 IN 的词。

                  iii.       该子句的第二个儿子为一个子句:使用 S[^()]* 识别

                 iv.       该子句没有其他的儿子

 

 

(?<Clause>\(S[^() ]*\s(?<INWH>\(IN\s[^()]+\)\s)(?<ClauseAfterInWh>\(S[^() ]*\s(?>[^()]+|\([^()\s]+\s(?<DEPTH>)|\)\s(?<-DEPTH>))*(?(DEPTH)(?!))\)\s)\)\s(?#Clause))

分享到:
评论

相关推荐

    .net正则表达式如何处理嵌套结构

    总结来说,.NET正则表达式通过使用固化分组、深度计数器以及条件表达式等高级特性,可以有效地处理括号的嵌套结构和句法分析树的解析。理解并熟练运用这些技巧,对于在.NET环境中进行文本分析和处理任务至关重要。...

    正则表达式如何处理嵌套结构

    通过以上示例可以看出,使用正则表达式可以有效地处理嵌套结构和复杂的句法分析树。然而需要注意的是,虽然正则表达式非常强大,但在处理极端复杂或递归性很强的问题时,可能仍然存在局限性。在这种情况下,考虑使用...

    正则表达式(regex)错误使用导致功能漏洞分析

    正则表达式(Regular Expression,简称regex)是一种强大的字符串匹配工具,广泛应用于各种程序语言中以描述和匹配一系列符合特定句法规则的字符串序列。正则表达式具有极高的灵活性,可以使用多种方法实现相同的...

    正则表达式转化为NFA

    将正则表达式转化为NFA,实质上是将一种抽象的描述语言转化为具体的自动机模型,这一过程涉及对正则表达式的语法树进行遍历,并根据特定规则构建NFA的节点和边。 #### NFA构造的关键步骤 1. **初始化**:首先初始...

    正则表达式、其他API

    正则表达式是一种强大的文本处理工具,能够帮助程序员实现对字符串的有效验证与处理。在多种编程语言中都有应用,包括但不限于Java、Python、JavaScript等。 #### 正则表达式概念 正则表达式是由一系列的字符和特殊...

    java正则表达式过滤html标签

    正则表达式是一种强大的文本匹配工具,它允许用户通过模式字符串来描述一系列符合某个句法规则的字符串集合。在Java中,`java.util.regex`包提供了支持正则表达式的类,包括`Pattern`和`Matcher`。 #### 二、过滤...

    余晟_实战正则表达式

    正则表达式,简称为正则,是一种强大的文本处理工具,用于在字符串中进行模式匹配和搜索替换。在计算机编程中,它被广泛应用于数据验证、文本分析、数据提取等多个领域。"余晟_实战正则表达式"的课程很可能深入浅出...

    精通正则表达式(第三版)[扫描版]

    正则表达式是一种强大的文本处理工具,它使用特定的字符组合来描述或匹配一系列符合某种句法规则的字符串。在日常开发工作中,正则表达式被广泛应用于数据验证、字符串搜索与替换、文本解析等多种场景。 #### 1.2 ...

    正则表达式shell

    正则表达式 shell 正则表达式是计算机科学中的一种重要思想和...awk 命令也可以使用正则表达式来实现文本处理。 正则表达式是学习 shell 脚本之前必学的内容,只有熟练掌握了正则表达式,才能更好地编写 shell 脚本。

    精通Delphi文本处理:正则表达式的全面应用

    正则表达式是一种用于字符串搜索和操作的强大工具,它使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式广泛应用于数据验证、字符串提取和替换等场景中。在Delphi中,正则表达式的主要支持是...

    Linux expect、正则表达式和sed的使用

    Linux中的Expect工具、正则表达式以及sed工具的使用是进行Linux自动化运维管理和文本处理不可或缺的技能。在实际运维和开发过程中,熟练运用这些技术可以大幅提升工作效率和准确性。 Expect是一种自动化交互式应用...

    Python爬虫之正则表达式基本用法实例分析

    正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。 compile 函数根据一个模式字符串和可选的标志参数生成一个...

    DOC格式的正则表达式大全

    正则表达式是一种强大的文本处理工具,它通过一系列简短的符号组合,来描述或者匹配一系列符合某种句法规则的字符串。在编程语言中,正则表达式常被用来进行字符串搜索、替换以及数据验证等操作。 #### 二、常用...

    应该如何构造复杂的正则表达式

    4. 处理由多个单条语句组成的复合语句,可以使用正则表达式C=~S(?:(?:or|and)S)*?/来匹配,这里的C代表复合语句,S代表单条语句。 以上步骤展示了如何通过构建正则表达式来解析SQL查询语句中的where部分。在实际...

    Python for Informatics 第11章 正则表达式(一)

    正则表达式不仅能够用于简单的字符串匹配,还能通过特殊字符来实现复杂的文本分析和处理。 正则表达式的特殊字符包括插入符号`^`、美元符号`$`、星号`*`、加号`+`、问号`?`、点号`.`、圆括号`()`、方括号`[]`、大...

    值得收藏的正则表达式大全

    这些知识点构成了一份详尽的正则表达式参考资料,涵盖了正则表达式的基本语法规则和高级功能,适合于程序员、数据分析师等需要在文本处理中进行模式匹配的专业人士。通过熟练掌握和应用这些正则表达式,可以大幅提高...

    正则表达式匹配用户密码

    正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,常用于字符串的搜索、替换等操作。 在密码匹配方面,正则表达式可以用来确保密码符合特定的安全要求。例如,需要密码既包含大写字母、小写...

Global site tag (gtag.js) - Google Analytics