`
ywxowen999
  • 浏览: 24025 次
  • 性别: Icon_minigender_1
  • 来自: 吉林
社区版块
存档分类
最新评论

一段优美的正则

阅读更多
记录下来,一段优美的代码。来源于jQuery,不过我是从kissy1.3源码中看到的。看来kissy还是大量参照了jquery啊。
代码如下:
var R_XHTML_TAG = /<(?!area|br|col|embed|hr|img|input|link|meta|param)(([\w:]+)[^>]*)\/>/ig;
function create( html ){
//...略
  html = html.replace(R_XHTML_TAG, '<$1><' + '/$2>');
//...略
}

代码非常简单,作用是按照XHTML标准为需要成对出现的标签做补全。
例如:'<div/>'这样子的字符串通过通过处理后得到<div></div>
作用就是这样子。下面开始分析代码。

1、正则的开始是/<,代表正则要匹配的第一个字符时<
2、(?!area|br|col|embed|hr|img|input|link|meta|param),代表接下来的字符不匹配所列标签名,也就是过滤掉直接关闭的标签。
(?!pattern) 这种语法叫做负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

3、(([\w:]+)[^>]*),首先需要注意这里的两个括号是代表两个获取匹配。获取的匹配结果待后续使用。由于有1,2两点约束为前提,[\w:]能够匹配的内容是紧跟在<号之后,切不为2中列举的标签的标签名(注:\w = [A-Za-z0-9_])。
[^>]*代表所有非>号字符,用于匹配标签内的属性。
两段加起来就可以匹配 div width='960px'这样子的结构了。
两个匹配结果$1也就等于 标签名+属性的组合如 div width='960px' $2 等于标签名如div

4、表达式以\/>结尾。没什么好解释的

正则匹配之后另一个需要关心的问题就是如何修改字符串的问题,怎么补全丢掉的结束标签。
这里利用了String.replace()的能力。
字符串 String的 replace() 方法执行的是查找并替换的操作。它将在 String中查找与 regexp 相匹配的子字符串,然后用 replacement 来替换这些子串。如果 regexp 具有全局标志 g,那么 replace() 方法将替换所有匹配的子串。否则,它只替换第一个匹配子串。

replacement 可以是字符串,也可以是。如果函数它是字符串,那么每个匹配都将由字符串替换。但是 replacement 中的 $ 字符具有特定的含义。如下表所示,它说明从模式匹配得到的字符串将用于替换。

字符 替换文本
$1、$2、...、$99 与 regexp 中的第 1 到第 99 个子表达式相匹配的文本。
$& 与 regexp 相匹配的子串。
$` 位于匹配子串左侧的文本。
$' 位于匹配子串右侧的文本。
$$ 直接量符号。

这就是'<$1><' + '/$2>'的意义,把第三段匹配中保存的第一个结果放入开始标签,把第二个结果放入结束标签如$1 = div width='960px' , $2 = div 组合起来就是<div width='960px'></div>
瞧,是不是很棒。
END
分享到:
评论

相关推荐

    正则表达式(一)从初学到精通正则表达式

    本文将用&lt;&lt;regex&gt;&gt;来表示一段具体的正则表达式。一段文本就是最基本的模式,简单的匹配相同的文本。 不同类型的正则表达式引擎 正则表达式引擎是一种可以处理正则表达式的软件。通常,引擎是更大的应用程序的一...

    正则化算法matlab

    正则化算法是机器学习和统计学中一种重要的方法,用于防止模型过拟合,提高模型的泛化能力。在MATLAB中,有许多内置的工具和函数支持正则化的实现,比如“Regularization Tools Version 4.1”这个库就提供了丰富的...

    正则表达式验证工具,正则表达式校验工具

    3、选择排除规则,一、按正则表达式把源码中符合正则的删除;二、按正则表达式把源码中符合正则的找出;三、符合正则表达式的显示True 4、选择是否不区分大小写(RegexOptions.IgnoreCase),单行模式...

    Lucene 使用正则表达式

    这段代码初始化了一个`IndexWriter`,用于创建新的索引。`new StandardAnalyzer()`表示使用标准分析器对文本进行分词处理。 2. **文档添加**: ```java Document doc1 = new Document(); Document doc2 = new ...

    常用正则表达式 正则表达式

    正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、搜索和替换等场景。它通过一种特殊的语法来描述一个字符串集合,可以非常灵活地表示各种复杂的字符串格式...

    pb 使用正则表达式源码pbregexp

    正则表达式是一种模式匹配语言,它允许开发者用简洁的语法来描述一组字符串的共同特征。在PowerBuilder中,pbregexp组件提供了一个接口,使得开发者可以方便地在PB脚本中使用正则表达式功能。这个组件可能包含以下...

    正则表达式正则表达式.zip

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串模式。它在IT行业中广泛应用,尤其是在编程语言、文本编辑器、数据分析和网页爬虫等领域。本压缩包包含一个名为“正则表达式语法.docx”的...

    常用正则表达式

    整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$ 只能输入数字:"^[0-9]*$"。 只能输入n位的数字:"^\d{n}$"。...匹配中文字符的正则表达式: [\u4e00-\u9fa5] 匹配双字节字符(包括汉字在内):[^\x00-\xff]

    qt正则表达式测试工具

    这个"qt正则表达式测试工具"显然是一个帮助开发者验证和调试正则表达式的实用程序。 正则表达式是一种特殊的文本字符串,用于描述复杂或重复的文本模式。它们在搜索、替换、数据提取等任务中非常有用。在Qt中,...

    正则表达式测试器

    2. **目标文本**:用户可以输入或粘贴一段文本,测试正则表达式是否能正确匹配其中的模式。 3. **匹配按钮**:点击后,测试器会高亮显示所有匹配的子串,并可能提供匹配详情,如匹配的开始和结束位置。 4. **替换...

    nodejs+字符串的模式匹配+正则表达式+判断获取字符串的某些需求

    正则表达式是一种强大的文本处理工具,能够帮助开发者高效地完成字符串的查找、替换等操作。在JavaScript中,正则表达式同样发挥着重要作用,尤其是在Node.js环境中进行字符串模式匹配时。本文将详细介绍如何在...

    正则表达式学习笔记

    #### 一、正则表达式概述 正则表达式是一种强有力的模式匹配工具,广泛应用于各种编程语言中,用于文本处理。正则表达式允许用户定义复杂的查找模式,这对于数据验证、搜索和替换操作特别有用。 #### 二、基本概念...

    java .net 正则表达式调试器

    为了解决这一问题,专门出现了正则表达式调试器,它能帮助开发者直观地理解正则表达式的匹配过程,从而快速定位和修复错误。 本文将围绕“Java .NET 正则表达式调试器”展开讨论,该调试器是基于.NET Framework构建...

    JS input正则验证大全

    :13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|17[0|1|3|5|6|7|8]|18[0-9]|19[8|9])\d{8}$/`来验证,这个正则涵盖了中国移动、中国联通、中国电信及虚拟运营商的号码段。 5. **银行卡验证**: - 银行卡号可能有多种长度...

    正则中的数字验证

    正则表达式是一种强大的文本处理工具,广泛应用于各种编程语言中,用于模式匹配、查找、替换等操作。本文档将详细介绍一系列与数字验证相关的正则表达式,旨在帮助开发者更加高效、准确地进行数字验证。 #### 二、...

    delphi正则表达式包

    Delphi正则表达式包是为Delphi 7开发者设计的一款强大的文本模式匹配工具,它引入了Perl风格的正则表达式支持。正则表达式(Regular Expression)是一种用于匹配字符串的强大工具,常用于文本搜索、替换和数据提取等...

    cpp-python正则表达式引擎的一个轻量级分支

    标题中的“cpp-python正则表达式引擎的一个轻量级分支”指的是一个小型的、基于C++的正则表达式库,它旨在实现与Python正则表达式引擎相似的功能,但保持轻量化和低依赖性。这个库可能是从一个更大型的项目中分支...

    正则表达式1.1源码.rar

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。在编程语言中,正则表达式(Regular Expression,简称regex)扮演着不可或缺的角色,它可以帮助开发者高效地处理各种字符串操作。正则...

    正则表达式傻瓜式宝典

    正则表达式,简称为正则,是一种强大的文本处理工具,用于匹配、查找、替换以及提取字符串中的模式。它是编程语言中的一个核心概念,被广泛应用于数据验证、文本搜索和替换等多个领域。在Java中,正则表达式是通过...

Global site tag (gtag.js) - Google Analytics