`
danaus
  • 浏览: 8133 次
  • 来自: IT
社区版块
存档分类
最新评论

java用正则表达式匹配html嵌套标签

    博客分类:
  • java
阅读更多
在一个hmtl页面,里面有如下的一组标签:

[b]<div>[/b]
     <div>
        <div>.....</div>
     </div>   
     <div>.....</div>
[b]</div>[/b]
     <div>.....</div>
     <div>.....</div>


用java的正则表达式包匹配不了加粗的标签,只可能得到: /<div>.*?</div>/
<div>
     <div>
        <div>.....</div>

或:/<div>.*</div>/

[b]<div>[/b]
     <div>
        <div>.....</div>
     </div>   
     <div>.....</div>
[b]</div>[/b]
     <div>.....</div>
     <div>.....</div>


java是否不能用正则表达式匹配html标签嵌套的?在网上找到的都是关于perl或.net就可以实现无限级嵌套标签的匹配。如果java不支持这个扩展功能,java有什么方法可能实现这种情况呢?
分享到:
评论
2 楼 wmcoo 2012-05-03  
http://blog.02ta.com/blog/java/java-regex-html-nested
1 楼 stzsyf 2009-01-04  
偶也想知道

相关推荐

    Java/Js下使用正则表达式匹配嵌套Html标签

    以前写过一篇文章讲解如何使用正则表达式完美解决Html嵌套标签的匹配问题(使用正则表达式匹配嵌套Html标签),但是里头用到了平衡组这样的高级特性,貌似只有DotNet还有Perl正则引擎支持,因此通用性不高。

    正则表达式匹配闭合HTML标签(支持嵌套)

    HTML标签可以嵌套使用,因此,编写能够匹配闭合标签的正则表达式具有一定的难度。 首先,要匹配闭合的HTML标签,我们需要理解HTML标签的基本结构。一个典型的HTML标签包括起始标签、标签内容以及闭合标签。例如,...

    Java正则表达式如何匹配特定html标签内的内容

    接下来,我们来讨论如何用Java正则表达式匹配特定标签内的内容。在示例中,我们尝试匹配&lt;html&gt;标签内的内容。我们可以构造一个包含捕获组的正则表达式,捕获组可以让我们提取出匹配正则表达式的特定部分。 在示例中...

    Java使用正则表达式删除所有HTML标签的方法示例

    对于每个正则表达式,先用`Pattern.compile()`编译为模式对象,然后用`matcher()`创建匹配器,最后用`replaceAll()`进行全局替换,将匹配到的HTML标签替换为空字符串。 在`getTextFromHtml`方法中,进一步处理了...

    java使用正则表达式过滤html标签

    需要注意的是,虽然使用正则表达式可以有效过滤掉HTML标签,但它并不是处理HTML内容的最佳方式,因为HTML的复杂性和嵌套特性很容易使正则表达式变得复杂且易错。在实际应用中,可以考虑使用专门的HTML解析库,例如...

    java script 正则表达式验证大全

    正则表达式验证 java script 验证大全 部分: 下面都是我收集的一些比较常用的正则表达式,因为平常可能在表单验证的时候,用到的比较多。特发出来,让各位朋友共同使用。呵呵。 匹配中文字符的正则表达式: [u4...

    正则表达式详解(20分钟看懂正则)

    平衡组用于匹配嵌套结构,如括号或引号,而递归匹配允许在正则表达式中使用自身进行匹配,处理复杂的嵌套模式。 #### 十四、进阶主题 正则表达式还包括前瞻断言(positive lookahead)、后瞻断言(negative ...

    《精通正则表达式第三版 E文》

    这本书详尽地介绍了正则表达式的语法、使用技巧以及背后的匹配算法,是许多开发者学习和提升正则表达式技能的重要参考资料。在IT行业中,正则表达式是一种强大的文本处理工具,广泛应用于数据验证、搜索、替换等场景...

    水淼·正则表达式助手.zip

    正则表达式在网页爬虫、数据分析、文本处理、编程语言(如JavaScript、Python、Java等)以及各种文本编辑器中都有广泛的应用。《水淼·正则表达式助手》通过其丰富的功能,为用户提供了强大的支持,无论是初学者还是...

    所有常用的正则表达式

    匹配HTML标记的正则表达式:(S*?)[^&gt;]*&gt;.*?|*? /&gt; 评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力 匹配首尾空白字符的正则表达式:^s*|s*$ 评注:可以用来删除行首行尾...

    怎么利用Java正则表达式换模板

    下面是一个完整的示例,展示了如何使用Java正则表达式替换模板: ```java import java.util.regex.Matcher; import java.util.regex.Pattern; public class TemplateReplace { public static void main...

    精通正则表达式(第三版)简体中文.pdf

    4. **高级特性**:如lookaround(前瞻后顾)、条件表达式、嵌套结构等,这些都是正则表达式进阶使用的必备知识,能实现更精细的匹配控制。 5. **正则表达式引擎的差异**:书中讨论了不同的正则表达式引擎(如Perl、...

    精通正则表达式~~~

    使用正则表达式匹配文本... 38 向更实用的程序前进... 40 成功匹配的副作用... 40 错综复杂的正则表达式... 43 暂停片刻... 49 使用正则表达式修改文本... 50 例子:公函生成程序... 50 举例:修整股票价格....

    正则表达式计数代码行数

    正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串模式。在编程领域,它被广泛应用于各种任务,包括数据提取、验证输入、格式化输出以及本例中的代码行计数。本教程将详细介绍如何使用正则...

    精通正则表达式(第3版)中英文

    本书的第三版涵盖了各种正则表达式引擎的差异,包括Perl、JavaScript、Java、.NET、PCRE(Perl兼容正则表达式)等。作者详细解释了如何构建复杂的模式,如使用量词(*、+、?、{n,m})来指定重复次数,使用分组(())...

    Java-PHP正则表达式的使用

    根据提供的标题、描述以及部分内容,我们可以总结出一系列与正则表达式相关的知识点,这些知识点主要应用于Java、PHP等编程语言中。以下是对这些知识点的详细解释: ### 匹配中文字符 **正则表达式**: `[u4e00-u9fa...

    常用正则表达式******

    /&gt;` 匹配自闭合的HTML标签。 - 需要注意的是,这个表达式并不适用于所有情况,对于复杂的HTML文档,建议使用专门的HTML解析库。 #### 匹配首尾空白字符 - **正则表达式**: `^\s*|\s*$` - **应用场景**: - 清理...

Global site tag (gtag.js) - Google Analytics