`

去除HTML tag的正则表达式

阅读更多


  public static final String REGEX_TAG = "\\<div[^>]*>|<DIV[^>]*>|</div>|</DIV>|<font[^>]*>|"+ "<FONT[^>]*>|</font>|</FONT>|"+ "<strong[^>]*>|<STRONG[^>]*>|</strong>|</STRONG>|"+ "<img[^>]*>|<IMG[^>]*>|</img>|</IMG>|"+ <br/>|<br>|</br>|<BR/>|<BR>|</BR>|"+ "<li[^>]*>|<LI[^>]*>|</li>|</LI>|"+ "<ul[>]*>|<UL[^>]*>|</ul>|</UL>|" + "<b[^>]*>|<B[^>]*>|</b>|</B>";

 public static final  String REGEX_P = "\\<p[^>]*>|<P[^>]*>|</p>|</P>";

这段正则表达式主要用于去除Android上面的一些网页标签,比如:<p></p>China <div width='90'>Test</div>
将会得到:China Test 

源数据:
<p></p>This a <p></p><P><div font = zz>news</div><aaaaa> in the China<br/>,<s></s>When you <font size='8'>Get the </font>more <strong>help</strong>,<xxx><img src=ss>SS</IMG>, LEt us <UL><li><b>1.</li></ul>
去除后:
<p></p>This a <p></p><P>news<aaaaa> in the China,<s></s>When you Get the more help,<xxx>SS, LEt us 1.

其他的标签可以一次类推进行添加。
分享到:
评论

相关推荐

    正则表达式列举 代码 项目中直接使用

    正则表达式是一种强大的文本处理工具,用于模式匹配、搜索、替换等操作,在软件开发、数据处理、网络爬虫等领域有着广泛的应用。在项目中直接使用正则表达式可以极大地提高代码的效率和可读性。以下是对给定文件中的...

    各类正则表达式(完整)

    ### 正则表达式知识点详解 #### 一、正则表达式基础介绍 正则表达式(Regular Expression),简称regex或regexp,是一种用于处理字符串的强大工具。它通过一系列简短的符号组合,来描述和匹配一系列符合某个复杂...

    精通正则表达式~~~

    精通正则表达式第三版 搜集于网络 前言..........I 第1章:正则表达式入门.... 1 解决实际问题... 2 作为编程语言的正则表达式... 4 以文件名做类比... 4 以语言做类比... 5 正则表达式的知识框架... 6 对于...

    常用的正则表达式.txt

    ### 常用的正则表达式解析 #### 1. 整数验证 - **正则表达式**: `1^\d+$` - **描述**: 验证非负整数。 - **应用场景**: 用于检查输入是否为一个或多个数字组成(即非负整数)。 #### 2. 正整数验证 - **正则表达式...

    winform 去除html标签的正则表达式

    通过使用正则表达式来去除HTML标签是一种非常有效的方法。下面我们将详细探讨如何利用正则表达式去除HTML标签以及相关的样式,并仅保留纯文本内容。 ### 一、正则表达式简介 正则表达式(Regular Expression)是一...

    jsp+正则表达式实用总结

    2. **数据清洗**:在处理用户输入或者从数据库中获取数据时,使用正则表达式去除无用字符,统一格式。 3. **内容查找和替换**:在动态生成HTML时,使用正则表达式查找并替换页面上的特定内容。 4. **URL路由**:在...

    java中常用的正则表达式

    描述:这个复杂的正则表达式用于去除字符串中的HTML标签,包括自闭合标签。它通过查找开标签`&lt;tag&gt;`和相应的闭合标签`&lt;/tag&gt;`,并移除它们之间的所有内容,实现HTML内容的清理。 ### 3. 验证电子邮件地址 正则...

    页面验证正则表达式

    根据提供的文件信息,我们可以整理出一系列与页面验证相关的正则表达式知识点,这些知识点涵盖了从中文字符验证到电子邮件地址、网址、电话号码等常见输入格式的验证规则。下面将逐一介绍这些知识点,并对其进行详细...

    Flash AS3.0 正则表达式

    ### Flash AS3.0 中的正则表达式应用详解 #### 标题解析 标题“Flash AS3.0 正则表达式”明确指出本文将介绍Adobe Flash在ActionScript 3.0(简称AS3)环境下的正则表达式的使用方法。 #### 描述解析 描述部分重复...

    使用正则表达式去除所有html标签只保留文字

    使用正则表达式去除HTML标签的原理是通过编写一个能够匹配各种HTML标签的正则表达式,然后利用替换功能将匹配到的标签替换为空字符串,从而实现提取纯文本的目的。 在本例中,涉及到的正则表达式为`/&lt;\/?.+?\/?&gt;/g`...

    有关正则表达式的验证信息

    根据提供的文件信息,我们可以总结出以下关于正则表达式的知识点: ### 正则表达式简介 正则表达式(Regular Expression)是一种强大的文本处理工具,它由一系列字符和特殊符号组成,用于匹配字符串中的特定模式。...

    用正则表达式过滤html代码

    代码例子如下:&lt;&#37;Option Explicit Function stripHTML(strHTML)‘Strips the HTML tags from strHTML ... ‘Replace all HTML tag matches with the empty string strOutput = objRegExp.Repl

    PHP实现通过正则表达式替换回调的内容标签

    这个函数`my_wp_plugin_tag_action`接收四个参数:`$content`是待处理的文本,`$tag`是正则表达式用于匹配的模式,`$function`是回调函数的名称,`$args`是可选参数传递给回调函数。函数首先使用`preg_match_all`...

    正则 过滤 html tab

    在IT领域,正则表达式(Regular Expression)是一种强大的文本处理工具,用于匹配、查找、替换等操作。在处理HTML内容时,我们可能需要过滤掉其中的制表符(tab),以便于数据清洗或者格式化输出。这个场景就涉及到...

    asp 去除HTML

    本文将详细解析如何利用正则表达式在ASP中去除HTML标签,并对给定的代码片段进行深入分析。 ### ASP去除HTML标签的原理 在ASP中,去除HTML标签主要依赖于正则表达式的强大功能。正则表达式是一种用于匹配字符串中...

    java过滤html代码

    下面我们将详细讨论如何在Java中通过正则表达式过滤HTML代码。 首先,我们需要理解HTML标签的基本结构。HTML标签通常由尖括号 `和 `&gt;` 包围,如 `&lt;tag&gt;` 和 `&lt;/tag&gt;`,其中 `tag` 是标签名称。有一些特殊的情况,如...

    jquery源码 带格式

    - `rsingleTag`: 用于匹配单一的HTML标签的正则表达式,例如`&lt;tag&gt;`或`&lt;tag/&gt;`。 - `jQuery`: 这个函数是jQuery的核心构造函数,当调用时,会创建一个新的`jQuery.fn.init`实例,这是初始化jQuery对象的主要方式。 ...

    去html代码的正则 推荐.docx

    本文将介绍一种使用正则表达式来去除HTML代码的方法,特别是通过提供的VBA(Visual Basic for Applications)函数`ScriptHtml`。 函数`ScriptHtml`接收三个参数: 1. `ConStr`:要过滤的字符串,即包含HTML代码的...

    asp.net去除html标记

    以下是一个使用正则表达式去除HTML标记的代码示例: ```csharp using System.Text.RegularExpressions; public static string StripHtmlTags(string content) { // 正则表达式用于匹配HTML标签 var regex = new ...

Global site tag (gtag.js) - Google Analytics