`
andrew.yulong
  • 浏览: 171700 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

通过正则过滤html标签

阅读更多
public static String delHtml(String inputString) {
        String htmlStr 
= inputString; // 含html标签的字符串
        String textStr = "";
        java.util.regex.Pattern p_script;
        java.util.regex.Matcher m_script;
        java.util.regex.Pattern p_html;
        java.util.regex.Matcher m_html;

        
try {
            String regEx_html 
= "<[^>]+>"// 定义HTML标签的正则表达式

            String regEx_script 
= "<[\s]*?script[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?script[\s]*?>"// 定义script的正则表达式{或<script[^>]*?>[\s\S]*?<\/script>

            p_script 
= Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
            m_script 
= p_script.matcher(htmlStr);
            htmlStr 
= m_script.replaceAll(""); // 过滤script标签

            p_html 
= Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
            m_html 
= p_html.matcher(htmlStr);
            htmlStr 
= m_html.replaceAll(""); // 过滤html标签

            textStr 
= htmlStr;

        } 
catch (Exception e) {
            System.err.println(
"Html2Text: " + e.getMessage());
        }

        
return textStr;// 返回文本字符串
    }
 
分享到:
评论

相关推荐

    java正则表达式过滤html标签

    java正则表达式过滤html标签 java正则表达式过滤html标签是指使用java语言中的正则表达式来过滤html标签的操作。HtmlRegexpUtil这个工具类提供了多种过滤html标签的方法,包括过滤所有以"开头以"&gt;"结尾的标签、找出...

    正则 过滤 html tab

    虽然在处理HTML和正则表达式时我们通常不会直接用到Boost库,但在其他C++项目中,Boost的正则表达式库(Boost.Regex)也可以用来过滤HTML中的制表符,其使用方式与Python的`re`模块类似。 总结起来,"正则 过滤 ...

    C#正则过滤HTML标签并保留指定标签的方法

    通过这些知识点,我们可以了解到如何在C#中使用正则表达式来过滤HTML标签并保留特定标签。需要注意的是,正则表达式虽然强大,但在处理复杂的HTML结构时可能会遇到一些限制,因为HTML不是正则表达式的正规语言。在...

    Java正则表达式过滤html标签1[参考].pdf

    Java正则表达式过滤html标签 Java正则表达式是一种强大的文本处理工具,可以用来过滤、提取和替换文本中的特定模式。在HTML标记处理中,正则表达式可以用来过滤、提取和替换HTML标签。 本文将介绍如何使用Java正则...

    java使用正则表达式过滤html标签

    标签“java过滤html标签 java正则过滤html标签 java过滤所有html标签”则指明了文章的具体技术范畴和读者可以利用的关键字。 在内容部分,文章提供了一个名为`HtmlRegexpUtil`的工具类,该类是专门用于处理HTML标签...

    PHP用正则表达式过滤超链接

    - `$str`:存储包含HTML标签的字符串。 - `$pat`:存储正则表达式模式。 2. **正则匹配**: - 使用`preg_match_all()`函数执行正则匹配。该函数返回所有匹配的结果,并将结果保存到数组`$m`中。 3. **输出结果*...

    asp.net 正则表达式过滤所有html标签

    ### ASP.NET 中使用正则表达式过滤HTML标签的详细解析 在Web开发中,经常需要对用户输入的数据进行处理,特别是在展示用户提交的内容时,为了防止XSS攻击或确保页面的整洁度,去除HTML标签变得至关重要。本文将详细...

    php正则过滤html标签、空格、换行符的代码(附说明)

    复制代码 代码如下: $str=preg_replace(“/\s+/”, ” “, $str); //过滤多余回车 $str=preg_replace(“/&lt;[ ]+/si”,”&lt;“,$str); //过滤&lt;__(“&lt;“号后面带空格) $str=... //过滤html标签 $str=preg_replac

    js过滤HTML标签完整实例

    本文将详细介绍如何使用JavaScript中的正则表达式来过滤HTML标签,通过一个简单的实例来演示其具体实现方法。 首先,需要了解什么是正则表达式。正则表达式是一种文本模式,包括普通字符(例如,每个字母和数字)和...

    正则过滤html

    在IT领域,尤其是在数据处理和网页解析中,"正则过滤HTML"是一个常见的任务,它涉及到文本处理、正则表达式以及HTML的理解。这个任务的主要目的是通过正则表达式从HTML源码中提取或移除特定的信息,例如标签、属性、...

    正则表达式清除html标签

    通过以上步骤,我们可以有效地清除HTML标签,获取到纯净的文本内容。这种技术在处理用户输入的数据时尤为重要,可以有效地避免安全风险,如XSS攻击等。此外,在进行文本分析、内容提取等场景下也非常有用。

    asp.net利用正则在HTML中提取图片路径(asp.net正则表达式过滤出HTML代码中图片路径).txt

    对于提取 HTML 中的图片路径,我们需要设计一个能够匹配 `&lt;img&gt;` 标签并捕获 `src` 属性值的正则表达式。 #### 示例代码分析 下面的示例展示了两种不同的方法来从 HTML 字符串中提取图片路径: ##### 方法一:`...

    C#过滤HTML标签源码,使用的正则表达式

    只有一个方法 传入要过滤的字符串 即可完成HTML标签的过滤操作 返回不带HTML标签的字符串 非常方便,且实用

    C#使用正则表达式过滤html标签

    本篇文章将详细解释如何使用C#的正则表达式来过滤HTML标签,以便将HTML字符串转换为纯文本。 首先,我们需要了解HTML标签的基本结构。HTML标签通常由尖括号 `和 `&gt;` 包围,如 `&lt;div&gt;` 和 `&lt;/div&gt;`。一些特殊的标签...

    Java 中 过滤Html标签

    使用正则表达式过滤Html标签的关键是定义正确的正则表达式。正则表达式是一种字符串匹配模式,可以用来匹配Html标签。例如,下面的正则表达式可以匹配script标签: `String regEx_script = "&lt;[//s]*?script[^&gt;]*?&gt;...

    php 正则过滤段首空白

    "php 正则过滤段首空白"这个主题是关于如何使用PHP的正则表达式去除文本中的段首空白,即每段文字开头的空格或制表符。在处理用户输入或者格式化文本时,这是一项非常实用的技术。 正则表达式是由特殊字符和普通...

    C# 过滤HTML标签的几种方法

    根据提供的文件信息,本文将...以上代码展示了如何在C#中利用正则表达式和字符串处理方法来过滤HTML标签及其相关内容。这种方法不仅可以有效去除HTML标签,还能处理各种HTML实体,从而确保最终输出的安全性和准确性。

    php过滤HTML标签、属性等正则表达式汇总

    主要介绍了php过滤HTML标签、属性等正则表达式汇总,本文使用代码实例给出了过滤HTML内容的正则表达式,具体说明请参阅代码中的注释,本文对使用PHP做采集的朋友有比较大的作用,需要的朋友可以参考下

Global site tag (gtag.js) - Google Analytics