`
wj_126mail
  • 浏览: 130133 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

用正则表达式分析HTML

 
阅读更多
我们可以用现成的很多工具来解析HTML。但我想如果能用正则表达式来做一些先期处理, 剪裁掉不必要的内容或者抽取出必要的内容。这样也许可以获得更高的效率。当然使用正则表达式是否能获得更高的效率,这一点恐怕还不能得到验证。

我想还是先做些具体的事情,效率的问题我们可以慢慢考证。

1. 获取图片的源地址:

(?si)<img.*?src=[',",/s]*(.*?)[',",/s,>]

这个表达式不是抽取完整的<img *** >标签。因为我们只关心img 标签中的 src 属性,所以小括号中是我们真正获取的内容:(.*?)。[',",/s]*匹配了等号后是单引号、双引号或者是空格的情况。[',",/s,>]匹配了源地址后面是单引号、双引号或者是空格的情况。
(?si)匹配了忽略大小写和一行匹配(可能不是很确切,请查相关资料)。其中(?i)代表匹配大写和小写。
分享到:
评论

相关推荐

    Java使用正则表达式提取XML节点内容的方法示例

    Java使用正则表达式提取XML节点内容的方法示例主要介绍了Java使用正则表达式提取XML节点内容的方法,结合具体实例形式分析了java针对xml格式字符串的正则匹配相关操作技巧。 一、正则表达式简介 正则表达式是指一...

    正则表达式大全 - 收集的最常用正则表达式

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过预定义的模式来识别和操作字符串中的数据。以下是一些常见的正则表达式及其用途: 1. 匹配中文字符:`[u4e00-u9fa5]` - 这个正则...

    正则表达式大全.docx

    正则表达式的使用非常广泛,它们在编程语言中作为内置函数或库提供,用于字符串处理、数据验证、文本分析等任务。掌握正则表达式可以极大地提高你的文本处理能力,尤其在处理大量数据或需要严格验证用户输入的场景下...

    易语言正则表达式文本替换

    总的来说,易语言的正则表达式文本替换功能提供了强大的文本处理能力,对于需要处理和分析文本的程序开发者来说,掌握这项技能能极大地提高工作效率。通过深入理解正则表达式和易语言的相关函数,开发者可以灵活地...

    精通正则表达式(第三版)简体中文版

    本书《精通正则表达式(第三版)简体中文版》主要介绍了正则表达式的概念、语法以及如何在不同的环境中高效地使用正则表达式。 #### 二、正则表达式的语法基础 1. **元字符**:正则表达式中的特殊字符,用于指定...

    常用正则表达式大全.txt

    根据提供的文件信息,我们可以整理出一系列与正则表达式相关的...以上内容概括了从文件中提取出来的正则表达式知识点,这些知识点覆盖了正则表达式的多个应用场景,对于从事软件开发、数据分析等领域的人来说非常实用。

    delphi xe 10 正则表达式

    在Delphi XE10中,正则表达式是一种强大的文本处理工具,它允许程序员通过模式匹配来查找、替换或提取字符串中的特定模式。...无论是数据验证、文本处理还是复杂的数据分析,正则表达式都是不可或缺的工具。

    正则表达式综合练习

    正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,它在IT行业中扮演着重要的角色,尤其是在数据处理、文本分析、爬虫技术等领域。正则表达式通过使用预定义的字符集和特殊符号,可以高效地...

    正则表达式验证金额格式

    在本场景中,我们关注的是如何使用正则表达式来验证金额格式。金额格式通常要求精确到小数点后两位,并且可能包含正负号。下面将详细介绍如何构建一个适用于这种需求的正则表达式。 首先,让我们了解一个基本的正则...

    正则表达式处理html文本例子

    正则表达式可用于解析这些元素,例如,使用`&lt;(\w+)[^&gt;]*&gt;`可以匹配任何HTML标签。 3. **匹配HTML标签**:在正则表达式中,`&lt;([a-zA-Z]+)\s*(.*)&gt;`可以匹配一个基本的HTML标签,其中`[a-zA-Z]+`代表标签名,`\s*`...

    正则表达式的妙用

    总的来说,正则表达式是IT领域中的一项强大技能,它的妙用无处不在,无论是数据清洗、日志分析还是网络爬虫,都能发挥重要作用。通过不断学习和实践,我们可以不断提升对正则表达式的理解和应用,从而解决更多复杂的...

    正则表达式详解,附代码运行结果

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。在编程语言中,它被广泛应用于数据验证、数据提取、文本搜索和替换等场景。本教程将深入解析正则表达式的基本概念、语法以及常用操作,通过...

    超经典正则表达式测试工具

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串模式。在IT行业中,掌握正则表达式是提升工作效率的关键技能之一。"超经典正则表达式测试工具"提供了对正则表达式的全方位测试和学习环境,...

    正则表达式.CHM

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串模式。它在编程、数据分析和网站开发等领域有着广泛的应用。本资源提供的"正则表达式.CHM"是一个关于正则表达式的完整指南,是学习和精通正则...

    正则表达式II 正则表达式

    - **JavaScript (JScript)**:JavaScript支持正则表达式的创建和使用,并提供了丰富的API来处理字符串匹配、搜索和替换等功能。 - **Visual Basic Script (VBScript)**:虽然功能相对有限,但VBScript同样支持基本的...

    Java中如何使用正则表达式

    例如,可以使用正则表达式验证邮箱格式,或者从HTML源代码中提取链接。 总的来说,掌握Java中的正则表达式不仅可以提高代码的灵活性,还能提升处理字符串问题的效率。学习正则表达式的语法和用法,结合实际编程实践...

    java正则表达式过滤html标签

    本篇文章将详细介绍如何使用Java中的正则表达式库来过滤HTML标签。 #### 一、正则表达式简介 正则表达式是一种强大的文本匹配工具,它允许用户通过模式字符串来描述一系列符合某个句法规则的字符串集合。在Java中...

    正则表达式.doc

    正则表达式在文本处理、数据分析、网页爬虫、编程语言和各种文本编辑器中都有广泛应用。熟练掌握正则表达式,将极大地提高处理文本问题的效率和精确性。通过不断的实践和学习,可以深入理解和运用正则表达式,解决...

    精通正则表达式(第三版).pdf

    例如,如何使用正则表达式来验证表单输入、清洗HTML标记、解析URL参数等。 综上所述,《精通正则表达式(第三版)》不仅涵盖了正则表达式的理论知识,还提供了大量的实践指导,对于希望深入了解并熟练掌握正则...

Global site tag (gtag.js) - Google Analytics