阅读更多

1顶
0踩

编程语言

原文:Build a Regex Engine in Less than 40 Lines of Code
作者:Nick Drane
翻译:Diwei

 

译者注:如何用不到40行的代码构建一个正则表达式引擎?作者在本文就将他本人的解决思路记录了下来,如果你也想挑战,不妨借鉴一下作者的思路,说不定你写的代码可能不到30行。以下为译文。

 

无意之间我发现了一篇文章,Rob Pike用C语言实现了一个正则表达式引擎的模型。于是我也尝试用Javascript写一个,并且增加了测试规范。测试规范和解决方案都放在了GitHub仓库上面。本文将重点介绍解决方案。

 

问题描述

 

正则表达式引擎将支持以下语法:

 

 

最终目标是用最少的代码提供最强大的功能,从而满足上述正则表达式用例。

 

单字符匹配

 

第一步是编写一个函数,该函数有两个入参,返回值是一个布尔类型,表示匹配结果。.表示通配模式,可以匹配任意字符。

 

简单举一些用例:

 

matchOne('a', 'a') -> true

 

matchOne('.', 'z') -> true

 

matchOne('', 'h') -> true

 

matchOne('a', 'b') -> false

 

matchOne('p', '') -> false

 

function matchOne(pattern, text) {
  if (!pattern) return true // Any text matches an empty pattern
  if (!text) return false   // If the pattern is defined but the text is empty, there cannot be a match
  if (pattern === ".") return true // Any inputted text matches the wildcard
  return pattern === text
}

 

 

相同长度的字符串匹配

 

现在需要增加参数的长度,并且暂时只考虑pattern和string长度相同的情况。根据以前的经验,我很自然的认为这种情况非常适合用递归来解决。 我们只需要反复调用matchOne函数就可以了。

 

function match(pattern, text) {
  if (pattern === "") return true  // Our base case - if the pattern is empty, any inputted text is a match
  else return matchOne(pattern[0], text[0]) && match(pattern.slice(1), text.slice(1))
}

 上面的代码首先将pattern[0]text[0]进行比较,然后将pattern[1]text[1]进行比较,并继续将pattern[i]text[i]进行比较,直到i === pattern.length - 1。如果在某个地方没有匹配成功,那么最终返回的结果就是匹配失败。

 

我们来举个例子。假设调用match('a.c','abc'),实际上返回的就是matchOne('a','a')&& match('.c','bc')

 

如果继续分析下去,其实最终的结果就是matchOne('a','a')&& matchOne('.','b')&& matchOne('c','c')&& match("","") ,这就相当于true && true && true && true,所以返回结果就是true!

 

$字符

 

接下来增加特殊字符$的支持,它可以匹配字符串后面的所有字符。要想实现该功能,只需要在上一步的match函数中增加一个额外基本情况的判断就可以了。

function match(pattern, text) {
  if (pattern === "") return true
  if (pattern === "$" && text === "") return true
  else return matchOne(pattern[0], text[0]) && match(pattern.slice(1), text.slice(1))
}

 

 

^字符

 

让我们添加对特殊模式字符^的支持,它允许匹配字符串的开头。这里我将介绍一个新的函数–search

function search(pattern, text) {
  if (pattern[0] === "^") {
    return match(pattern.slice(1), text)
  }
}

 这个函数将成为代码的新入口。到目前为止只是在文本开始时才开始匹配。现在只是通过强迫用户以^来开始。但是如何支持文本中出现的任何模式呢?

 

任意位置的匹配

 

截止到目前为止,下面的表达式将会返回true

 

search("^abc", "abc")

 

search("^abcd", "abcd")

 

但是search("bc", "abcd")返回的却是undefined。我们期望让它返回true

 

如果用户没有指明要从第一个字符开始就要匹配,那么我们希望在文本内的每个可能的起始点进行搜索。这是默认的处理规则,除非pattern是以^开始。

function search(pattern, text) {
  if (pattern[0] === "^") {
      return match(pattern.slice(1), text)
  } else {
      // This code will run match(pattern, text.slice(index)) on every index of the text.
      // This means that we test the pattern against every starting point of the text.
      return text.split("").some((_, index) => {
      return match(pattern, text.slice(index))
    })
  }
}

 

?字符

 

使用?的话,那么在?前面的0个或者1个字符可以进行匹配。

 

这里有一些范例:

 

search("ab?c", "ac") -> true

 

search("ab?c", "abc") -> true

 

search("a?b?c?", "abc") -> true

 

search("a?b?c?", "") -> true

 

第一步是修改match函数,当检测到?字符出现以后就开始调用matchQuestion函数,matchQuestion函数的定义将会在下面的内容看到。

function match(pattern, text) {
  if (pattern === "") {
    return true
  } else if (pattern === "$" && text === "") {
    return true
  // Notice that we are looking at pattern[1] instead of pattern[0].
  // pattern[0] is the character to match 0 or 1 of.
  } else if (pattern[1] === "?") {
    return matchQuestion(pattern, text)
  } else {
    return matchOne(pattern[0], text[0]) && match(pattern.slice(1), text.slice(1))
  }
}

 

 

matchQuestion函数需要处理两种情况:

 

  1. ?之前的字符没有匹配成功,但是?后面所有的文本都和pattern的剩余部分匹配成功了;
  2. ?之前的字符都匹配成功了,并且其余的文本(这里应该减去一个字符)也和pattern的剩余部分匹配成功了;

 

上面两种情况中只要满足一种,那么matchQuestion函数就会返回true

 

让我们先考虑第一种情况。如果pattern中的文本除了_?不一样以外,其它都能匹配成功,这种情况我们怎么去检查呢?换句话说,如果?前面的字符只出现了0次,这种情况我们怎么去检查呢?我们从pattern剔除掉2个字符(第一个字符就是?前面的哪个,第二个字符就是?本身),然后再调用match函数。

function matchQuestion(pattern, text) {
  return match(pattern.slice(2), text);
}

 

 

第二种情况更具挑战性,但是和上面介绍的一样,它还是重用了之前已经写好的函数。

function matchQuestion(pattern, text) {
  if (matchOne(pattern[0], text[0]) && match(pattern.slice(2), text.slice(1))) {
    return true;
  } else {
    return match(pattern.slice(2), text);
  }
}

 

 

如果text[0]pattern[0]匹配上了,而且其它的文本和pattern中剩余的也能匹配上,那么我们就成功了。注意,代码我们也可以这么写:

function matchQuestion(pattern, text) {
  return (matchOne(pattern[0], text[0]) && match(pattern.slice(2), text.slice(1))) || match(pattern.slice(2), text);
}

 

 

我更喜欢后面一个方法的原因是因为它明确地指出了有两种情况,只要满足其中一种,那么返回的结果就是true

 

*字符

 

我们希望能够匹配*前面0个或多个字符。

 

下面这些表达式的返回结果都应该是true

 

search("a*", "")

 

search("a*", "aaaaaaa")

 

search("a*b", "aaaaaaab")

 

这个跟?的情况很相似,我们在match函数里面再增加一个matchStar方法。

function match(pattern, text) {
  if (pattern === "") {
    return true
  } else if (pattern === "$" && text === "") {
    return true
  } else if (pattern[1] === "?") {
    return matchQuestion(pattern, text)
  } else if (pattern[1] === "*") {
    return matchStar(pattern, text)
  } else {
    return matchOne(pattern[0], text[0]) && match(pattern.slice(1), text.slice(1))
  }
}

 

 

matchStarmatchQuestion一样,也要处理两种情况:

 

  1. *前面的部分没有匹配成功,但是其它文本和pattern中*后面的都匹配成功了;
  2. *前面的部分匹配成功了,并且其它文本和pattern中*后面的也都匹配成功了;

 

由于这两种情况都能决定匹配的结果,因此我们知道matchStar可以用布尔类型OR来实现。此外,matchStar的情况1与matchQuestion的情况1完全相同,因此同样也可以使用match(pattern.slice(2),text)进行实现。这意味着我们只需要制定满足情况2的表达式。

function matchStar(pattern, text) {
  return (matchOne(pattern[0], text[0]) && match(pattern, text.slice(1))) || match(pattern.slice(2), text);
}

 

 

重构

 

现在我们可以回过头来,对search函数进行简化,而且正好可以将我从Peter Norvig写的里面学到的一个技巧应用上。

function search(pattern, text) {
  if (pattern[0] === "^") {
    return match(pattern.slice(1), text)
  } else {
    return match(".*" + pattern, text)
  }
}

 

 

我们使用*字符本身来允许pattern中字符串可以出现在任何地方。前面的.*表示在pattern前面出现了任何数量的任何字符,我们也希望能匹配成功。

 

结论

 

功能如此强大,但是代码却如此简洁明了,这真是一件很了不起的事情。完整的源代码可以再GitHub仓库中找到。

1
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Native-Regex:一套用于将正则表达式构建到源代码和Rust宏中的工具

    由于各种原因,尚不支持常见正则表达式的某些功能。 大多数不支持的功能之所以如此,是因为它们会增加高昂的开销。 但是,通常这些限制都可以解决,它们只要求您以不同的方式思考。 精确 使用常规的正则表

  • 简易正则表达式引擎

    一种简易正则表达式实现思路, 不使用复杂DFA,NFA方式, 提供完整源码及测试用例

  • 动手实现正则表达式引擎

    下面两张表是两种正则表达式引擎的表现。其中一种用在许多语言的标准解释器,有Perl。另外一种用在为数不多的地方,主要是awk和grep。这两种引擎有着极为不同的性能表现图1 a?(n)a(n)匹配a(n)用时   用(n)代表字符...

  • java 正则引擎_用 Java 实现一个正则表达式引擎

    就三步:分析正则表达式并构建出NFA根据NFA得出DFA根据DFA匹配字符串当然,这只是最基本的,但是可以了解到正则表达式的实现原理,这篇文章实现三个最基本的正则操作:连接 abc 匹配 abc或 ab|cd 匹配 ab或cd重复 a*...

  • JS正则表达式完整版

    第一章 正则表达式字符匹配攻略 1 两种模糊匹配 2. 字符组 3. 量词 4. 多选分支 5. 案例分析 第1章 小结 第二章 正则表达式位置匹配攻略 1. 什么是位置呢? 2. 如何匹配位置呢? 3. 位置的特性 4. 相关...

  • 实现简单的正则表达式引擎

    不过在后面的日常工作里,越来越多地开始使用到正则表达式,正则表达式也逐渐成为一个很常用的工具。 要掌握一种工具除了了解它的用法,了解它的原理也是同样重要的,一般来说,正则引擎可以粗略地分为两类:DFA...

  • 正则表达式大全

    无意中从网上查找到一篇关于正则表达式的好文章,就进行了分享给大家,希望对大家有帮助。亲爱的读者朋友,如果你点开了这篇文章,说明你对正则很感兴趣。想必你也了解正则的重要性,在我看来正则表达式是衡量程序员...

  • 精通正则表达式 - 打造高效正则表达式

    打造高效正则表达式

  • C++11 正则表达式匹配

    C++11 正则表达式匹配的用法

  • 《Python进阶系列》十六:详解Python中的正则表达式

    正则表达式为高级的文本模式匹配、抽取、与/或文本形式的搜索和替换功能提供了基础。简单地说,正则表达式是一些由字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于是正则表达式能按照某种...

  • Java正则表达式简介及实例

    何为正则表达式? 有时候会需要编写代码来验证用户输入,比如验证输入是否是一个数字,是否是一个全部小写的字符串,或者社会安全号,完成这个任务一个简单高效的方法就是用正则表达式!

  • Notepad+正则表达式使用方法

    常用的元字符和语法规则来构建你的表达式:在...根据正则表达式引擎的不同,可能还有其他特殊字符需要转义。在编写正则表达式时,如果你想匹配一个特殊字符本身,请查阅相关的文档或参考资料,以确保正确使用转义符。

  • 正则表达式和自动机(DFA&NFA)

    文章目录一 正则表达式匹配原理1.1 正则表达式1.2 DFA1.3 正则表达式和DFA的关系1.4 正则匹配过程二 DFA的构建三 DFA与正则的转化3.1 DFA转正则表达式3.2 正则表达式转DFA3.2.1 正则表达式转NFA3.2.2 NFA确定化四 js...

  • 正则表达式不要背

    所以,希望这篇文章能帮助大家理清思路,搞懂正则表达式各种符号之间的内在联系,形成知识体系,当下次再遇到正则表达式的时候可以不借助搜索引擎,自己解决。 正则表达式到底是什么 正则表达式(Regular Express.

  • C#中的正则表达式引擎

    为什么还要在.NET包含丰富的正则表达式库时生成正则表达式引擎? 首先,正则表达式引擎有两大类——回溯和非回溯。大多数现代正则表达式引擎都会进行回溯。回溯引擎比非回溯引擎具有更强的表现力,但是以性能为代价...

  • javaScript 正则表达式

    javaScript 正则表达式

  • 自己动手写一个轻巧,高效的正则表达式引擎

    下面两张表是两种正则表达式引擎的表现。其中一种用在许多语言的标准解释器,有Perl。另外一种用在为数不多的地方,主要是awk和grep。这两种引擎有着极为不同的性能表现 图1 a?(n)a(n)匹配a(n)用时   用(n)代表...

  • 正则表达式使用详解

    作者:老刘 ...来源:知乎 著作权归作者所有。...正则表达式在几乎所有语言中都可以使用,无论是前端的JavaScript、还是后端的Java、c#。他们都提供相应的接口/函数支持正则表达式。 但很神奇的是:无论你大学选.

  • Crawlee - 一个用于 Python 的网页抓取和浏览器自动化库,用于构建可靠的爬虫 提取 AI、LLM、RAG 或 GPT 的数据 从网站下载 HTML、PDF、JPG、PNG

    Web scraping and browser automation librarylee 涵盖了端到端的抓取和爬取,并帮助您快速构建可靠的爬取工具。 Crawlee for Python 向早期采用者开放!即使使用默认配置,您的爬虫程序看起来也几乎像人类一样,并且不会受到现代机器人保护的监视。Crawlee 为您提供了工具,让您可以抓取网络上的链接、抓取数据并以机器可读的格式持久存储数据,而无需担心技术细节。而且,由于配置选项丰富,如果默认设置不适用,您可以调整 Crawlee 的几乎任何方面以满足您的项目需求。在Crawlee 项目网站上查看完整的文档、指南和示例我们还有一个 TypeScript 实现的 Crawlee,您可以探索并利用它来完成您的项目。请访问我们的 GitHub 存储库,获取有关GitHub 上 JS/TS 的 Crawlee 的更多信息。安装我们建议您访问Crawlee 文档中的简介教程以获取更多信息。Crawlee 可作为crawleePyPI 软件包使用。核心功能包含在基础软件包中,其他功能作为可选附加功能提供,以最大限度地减少软件包大小和依赖项。要安装

Global site tag (gtag.js) - Google Analytics