`
shifulong
  • 浏览: 59254 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

html标签的正则表达式

    博客分类:
  • java
阅读更多

处理一个HTML网页的时候,需要把所有的HTML标签去除,想到了正则:

正确的
String[] args = content.split("<([^>]*)>");// 匹配HTML便签

在"^>"  中 "^"是"非"的意思,并不是 "开始"标记,"^"只有放到开头的地方时才表示"开始"

错误的
String[] args = content.split("<([\\d\\D]*)>");// 匹配HTML便签

刚开始在网上找的,结果试了半天不对,纠结了好久才明白。
\d\D 把">"也包括了,结果根本找不到右边界,匹配不到结果。

网上说"<([^>]*)>" 并不能匹配完全,有待验证。
分享到:
评论

相关推荐

    Java使用正则表达式提取XML节点内容的方法示例

    Java使用正则表达式提取XML节点内容的方法示例 Java使用正则表达式提取XML节点内容的方法示例主要介绍了Java使用正则表达式提取XML节点内容的方法,结合具体实例形式分析了java针对xml格式字符串的正则匹配相关操作...

    正则表达式大全 - 收集的最常用正则表达式

    /&gt;` - 这个正则表达式用于找出HTML文档中的标签,但不适用于复杂的嵌套标记。 5. 匹配首尾空白字符:`^s*|s*$` - 该正则表达式用于删除字符串开始或结束的空格、制表符等空白字符。 6. 匹配Email地址:`w+([-+.]w...

    正则表达式大全.docx

    :&gt;(.*)|\s+\/&gt;)$/` - 此正则表达式尝试匹配HTML标签的基本结构,但并不完全适用于所有复杂的HTML结构。 8. Unicode汉字范围:`/^[u4e00-u9fa5],{0,}$/` 和匹配中文字符的正则表达式:`[\u4e00-\u9fa5]` - 这两个...

    正则表达式列举 代码 项目中直接使用

    这个复杂的正则表达式用于匹配HTML标签。它通过捕获组(`(.*)`)来匹配起始标签`&lt;tag&gt;`和结束标签`&lt;/tag&gt;`,同时确保起始和结束标签相匹配。另外,它也匹配自闭合标签,如`&lt;img /&gt;`。 ### 5. 去除字符串两端的空白 ...

    易语言正则表达式文本替换

    - 文本转换:批量修改文本格式,如大小写转换、HTML标签替换等。 总的来说,易语言的正则表达式文本替换功能提供了强大的文本处理能力,对于需要处理和分析文本的程序开发者来说,掌握这项技能能极大地提高工作...

    常用正则表达式大全.txt

    1. **HTML标签去除**:用于移除HTML标签。 - 正则表达式:`(?:[a-zA-Z][^&gt;]*&gt;)` - 示例:将`&lt;p&gt;Hello World!&lt;/p&gt;`转换为`Hello World!` 2. **空白字符去除**:用于去除字符串首尾的空白字符。 - 正则表达式:`^...

    精通正则表达式(第三版)简体中文版

    3. **文本替换**:基于模式对文本进行替换操作,如去除HTML标签、转换大小写等。 4. **数据提取**:从复杂的数据中提取所需的信息,如从网页中抓取特定内容。 5. **日志分析**:从系统日志中提取关键信息进行监控和...

    源码(精通正则表达式&实战正则表达式)

    2. **文本处理**:从大量文本中提取特定信息,如网页爬虫抓取链接、解析HTML标签等。 3. **替换操作**:批量替换文本,如去除空白字符、格式化代码等。 4. **URL解析**:利用正则处理URL,提取协议、域名、路径、...

    JavaScript正则表达式匹配 div style标签

    正则表达式无法很好地处理嵌套标签和具有属性的标签,且对HTML的解析通常不如专门的HTML解析器准确。不过,在一些简单应用场景下,使用正则表达式还是可以完成任务的。 下面是一个简单的JavaScript示例代码,展示...

    delphi xe 10 正则表达式

    3. **去除HTML标签**:使用 `&lt;[^&gt;]*&gt;` 可以找到并替换掉文本中的HTML标签。 4. **数字格式化**:将连续的数字字符替换为逗号分隔的格式,如 `(\d{1,3}(?=(\d{3})+(?!\d)))` 可以实现这个功能。 六、注意事项 - ...

    jq非空验证,js正则表达式验证邮箱和手机号码

    在本案例中,我们关注的是使用jQuery(jq)进行非空验证,以及使用JavaScript(js)的正则表达式来验证邮箱和手机号码的正确性。以下是关于这些知识点的详细说明: 1. **jQuery(jq)非空验证**: jQuery是一种轻...

    java正则表达式过滤html标签

    java正则表达式过滤html标签 java正则表达式过滤html标签是指使用java语言中的正则表达式来过滤html标签的操作。HtmlRegexpUtil这个工具类提供了多种过滤html标签的方法,包括过滤所有以"开头以"&gt;"结尾的标签、找出...

    正则表达式 Java 判断字串是否合理

    根据给定的文件信息,我们可以总结出以下关于Java正则表达式的重要知识点: ### 1. 正则表达式简介 正则表达式是一种强大的文本处理工具,它能够帮助我们匹配、查找、替换等操作符合某种规则的字符串。在Java中,...

    JS正则表达式的使用以video标签为例

    使用JS正则表达式,选取video元素的src属性的值,利用jQuery选取元素

    正则表达式--递归匹配与非贪婪匹配

    在正则表达式中,递归匹配是一个重要的概念,它主要用于处理那些具有嵌套结构的数据,例如数学公式中的括号匹配或HTML标签的匹配。 ##### 1.1 嵌套匹配的需求 在很多场景下,我们希望正则表达式能够处理包含多层...

    js_正则表达式全攻略

    ### 正则表达式在JavaScript中的应用全攻略 #### 一、正则表达式的概念及其在JavaScript中的重要性 正则表达式(Regular Expression)是一种强大的文本处理工具,能够帮助开发者进行复杂的字符串搜索和替换。在...

    正则表达式的妙用

    标签"老司机"暗示这个任务需要一定的经验和技巧,因为正则表达式虽然强大,但同时也具有一定的学习曲线。理解并熟练运用各种元字符(如`.`、`^`、`$`、`*`、`+`、`?`、`|`、`()`、`[]`等)、量词和反向引用等,以及...

    正则表达式处理html文本例子

    在处理HTML文本时,正则表达式尤其有用,可以用来查找、替换或提取HTML标签及其内容。以下是对这个主题的详细阐述: 1. **基本正则表达式概念**:正则表达式是由字符和特殊符号组成的字符串,它们定义了一个模式,...

    正则表达式(基本包含所有验证的正则)

    有时我们需要去除一段文本中的HTML标签,这时可以使用如下的正则表达式: ```javascript var htmlTagPatrn = /&lt;(S*?)[^&gt;]*&gt;.*?|*?\/&gt;/; ``` 该正则表达式用于匹配带有闭合标签的HTML片段。 ##### 2. 英文大小写验证...

Global site tag (gtag.js) - Google Analytics