记录下来,一段优美的代码。来源于jQuery,不过我是从kissy1.3源码中看到的。看来kissy还是大量参照了jquery啊。
代码如下:
var R_XHTML_TAG = /<(?!area|br|col|embed|hr|img|input|link|meta|param)(([\w:]+)[^>]*)\/>/ig;
function create( html ){
//...略
html = html.replace(R_XHTML_TAG, '<$1><' + '/$2>');
//...略
}
代码非常简单,作用是按照XHTML标准为需要成对出现的标签做补全。
例如:'<div/>'这样子的字符串通过通过处理后得到<div></div>
作用就是这样子。下面开始分析代码。
1、正则的开始是/<,代表正则要匹配的第一个字符时<
2、(?!area|br|col|embed|hr|img|input|link|meta|param),代表接下来的字符不匹配所列标签名,也就是过滤掉直接关闭的标签。
(?!pattern) 这种语法叫做负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
3、(([\w:]+)[^>]*),首先需要注意这里的两个括号是代表两个获取匹配。获取的匹配结果待后续使用。由于有1,2两点约束为前提,[\w:]能够匹配的内容是紧跟在<号之后,切不为2中列举的标签的标签名(注:\w = [A-Za-z0-9_])。
[^>]*代表所有非>号字符,用于匹配标签内的属性。
两段加起来就可以匹配 div width='960px'这样子的结构了。
两个匹配结果$1也就等于 标签名+属性的组合如 div width='960px' $2 等于标签名如div
4、表达式以\/>结尾。没什么好解释的
正则匹配之后另一个需要关心的问题就是如何修改字符串的问题,怎么补全丢掉的结束标签。
这里利用了String.replace()的能力。
字符串 String的 replace() 方法执行的是查找并替换的操作。它将在 String中查找与 regexp 相匹配的子字符串,然后用 replacement 来替换这些子串。如果 regexp 具有全局标志 g,那么 replace() 方法将替换所有匹配的子串。否则,它只替换第一个匹配子串。
replacement 可以是字符串,也可以是。如果函数它是字符串,那么每个匹配都将由字符串替换。但是 replacement 中的 $ 字符具有特定的含义。如下表所示,它说明从模式匹配得到的字符串将用于替换。
字符 替换文本
$1、$2、...、$99 与 regexp 中的第 1 到第 99 个子表达式相匹配的文本。
$& 与 regexp 相匹配的子串。
$` 位于匹配子串左侧的文本。
$' 位于匹配子串右侧的文本。
$$ 直接量符号。
这就是'<$1><' + '/$2>'的意义,把第三段匹配中保存的第一个结果放入开始标签,把第二个结果放入结束标签如$1 = div width='960px' , $2 = div 组合起来就是<div width='960px'></div>
瞧,是不是很棒。
END
分享到:
相关推荐
本文将用<<regex>>来表示一段具体的正则表达式。一段文本就是最基本的模式,简单的匹配相同的文本。 不同类型的正则表达式引擎 正则表达式引擎是一种可以处理正则表达式的软件。通常,引擎是更大的应用程序的一...
3、选择排除规则,一、按正则表达式把源码中符合正则的删除;二、按正则表达式把源码中符合正则的找出;三、符合正则表达式的显示True 4、选择是否不区分大小写(RegexOptions.IgnoreCase),单行模式...
这段代码初始化了一个`IndexWriter`,用于创建新的索引。`new StandardAnalyzer()`表示使用标准分析器对文本进行分词处理。 2. **文档添加**: ```java Document doc1 = new Document(); Document doc2 = new ...
正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、搜索和替换等场景。它通过一种特殊的语法来描述一个字符串集合,可以非常灵活地表示各种复杂的字符串格式...
这段代码创建了一个VBScript正则表达式对象,并应用了给定的模式,然后使用`Test`方法检查输入的文本是否符合模式。如果符合,函数返回True;否则,返回False。 现在,我们可以在WPS Excel的单元格中使用这个`REGEX...
正则表达式是一种模式匹配语言,它允许开发者用简洁的语法来描述一组字符串的共同特征。在PowerBuilder中,pbregexp组件提供了一个接口,使得开发者可以方便地在PB脚本中使用正则表达式功能。这个组件可能包含以下...
正则式,全称为“正则表达式”,是编程领域中一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过一系列特定的字符和语法构建模式,可以高效地处理各种复杂的文本匹配任务。在软件开发、数据处理、...
这个"qt正则表达式测试工具"显然是一个帮助开发者验证和调试正则表达式的实用程序。 正则表达式是一种特殊的文本字符串,用于描述复杂或重复的文本模式。它们在搜索、替换、数据提取等任务中非常有用。在Qt中,...
正则表达式是一种强大的文本处理工具,用于在各种编程语言中进行模式匹配和字符串操作。在计算机科学领域,正则表达式(Regular Expression,简称regex)是用于匹配一系列字符串的模式,广泛应用于数据验证、搜索...
#### 一、正则表达式概述 正则表达式是一种强有力的模式匹配工具,广泛应用于各种编程语言中,用于文本处理。正则表达式允许用户定义复杂的查找模式,这对于数据验证、搜索和替换操作特别有用。 #### 二、基本概念...
在iOS开发中,正则表达式(Regular Expression)是一种强大的文本处理工具,它能用于模式匹配、字符串查找、替换和分割等操作。本类库专为iOS环境设计,旨在简化和增强应用程序对正则表达式的处理能力。下面将详细...
为了解决这一问题,专门出现了正则表达式调试器,它能帮助开发者直观地理解正则表达式的匹配过程,从而快速定位和修复错误。 本文将围绕“Java .NET 正则表达式调试器”展开讨论,该调试器是基于.NET Framework构建...
:13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|17[0|1|3|5|6|7|8]|18[0-9]|19[8|9])\d{8}$/`来验证,这个正则涵盖了中国移动、中国联通、中国电信及虚拟运营商的号码段。 5. **银行卡验证**: - 银行卡号可能有多种长度...
Qt正则表达式例程,包含字符串搜索、字符串替换等。...Qt的正则表示类是QRegExp,在很多情况下都可以用到,...此外QRegExp还提供了一个简化的通配符模式(wildcard),和命令行下的匹配模式比较类似(只有?和*两个元字符)。
正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。在编程语言中,正则表达式(Regular Expression,简称regex)扮演着不可或缺的角色,它可以帮助开发者高效地处理各种字符串操作。正则...
正则表达式,简称为正则,是一种强大的文本处理工具,用于匹配、查找、替换以及提取字符串中的模式。它是编程语言中的一个核心概念,被广泛应用于数据验证、文本搜索和替换等多个领域。在Java中,正则表达式是通过...
根据题目描述,我们需要构建一个正则表达式来匹配一段字符串,该字符串除了允许出现特定字符(例如下划线 `_`)之外,不允许包含任何其他特殊字符。这里的“特殊字符”通常指的是那些不在字母数字字符集范围内的符号...
正则表达式是一种强大的文本处理工具,能够帮助用户实现字符串的查找、替换等功能。正则表达式的应用场景非常广泛,尤其在编程领域中不可或缺。对于初学者来说,掌握正则表达式的基础知识尤为重要。 #### 2. 正则...
这些字符类可以放在`[]`内作为正则表达式的一部分使用,使得正则表达式的编写更加简洁明了。 #### 6. 总结 通过以上介绍,我们可以看到GREP正则表达式在Adobe InDesign中的应用非常广泛且强大。无论是简单的文本...