`
shenyuc629
  • 浏览: 195654 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

java去除字符中的HTML标记

    博客分类:
  • Java
阅读更多
转载地址:http://www.shuonar.com/blog/bdde9aa4-eb0a-40f3-bfed-3d01d1ac8871.html
1.去除单个HTML标记
String s="asdfasd<script>asdfsfd</script>1234";
System.out.println(s.replaceAll("<script.*?(?<=/script>)",""));
2.去除所有HTML标记
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HTMLSpirit{
    public static String delHTMLTag(String htmlStr){
         String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
         String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
         String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式
        
         Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
         Matcher m_script=p_script.matcher(htmlStr);
         htmlStr=m_script.replaceAll(""); //过滤script标签
        
         Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
         Matcher m_style=p_style.matcher(htmlStr);
         htmlStr=m_style.replaceAll(""); //过滤style标签
        
         Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
         Matcher m_html=p_html.matcher(htmlStr);
         htmlStr=m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
     }
}
分享到:
评论

相关推荐

    Java过滤器,字符过滤,标签过滤

    在这个小样例中,我们看到的是如何使用Java实现字符过滤和标签过滤,以及字符编码的转换。这在处理用户输入或者显示网页内容时特别有用,可以防止SQL注入、XSS攻击等安全问题,同时确保数据在不同系统间正确传输。 ...

    Java正则表达式去除img标签的src内容

    java代码,从image标签中正则匹配取出src标签的内容,java代码,从image标签中正则匹配取出src标签的内容

    去掉所有的html标签

    在探讨如何去除HTML字符串中的所有标签这一主题时,我们首先需要理解HTML(HyperText Markup Language)的基本概念及其在网页开发中的作用。HTML是一种用于创建网页的标准标记语言,它通过一系列预定义的元素来描述...

    java字符串处理-中英文-非常有用的

    根据提供的标题、描述、标签及部分内容,我们可以总结出以下关于Java字符串处理的相关知识点: ### Java字符串处理技术:中文与英文的兼容性 在Java中,处理字符串是非常常见且重要的任务之一,尤其是在涉及到国际...

    java清除html转义字符

    在Java开发中,处理HTML内容时,有时我们需要清除HTML转义字符,以确保文本在显示或存储时不会解析为HTML标签。HTML转义字符是用于在HTML文档中表示特殊字符的字符实体,例如 `会被转义为 `&lt;` 以防止浏览器将其...

    java代码-正则去除HTML代码中的A标签

    总结来说,使用Java和正则表达式去除HTML中的A标签是一种常见的文本处理任务,但需要注意的是,这种方法对于简单的情况有效,对于复杂的HTML结构可能不够健壮。对于更复杂的需求,推荐使用专门的HTML解析库。

    java代码-正则去除HTML代码中的IMG标签

    在Java编程中,处理HTML内容时,我们可能会遇到需要移除特定标签,比如IMG标签的情况。这通常是出于数据清理、文本分析或者某些特定需求。在这个案例中,我们要使用正则表达式来实现这个功能。正则表达式是匹配和...

    java正则表达式过滤html标签

    为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍如何使用Java中的正则表达式库来过滤HTML标签。 #### 一、正则表达式简介 正则表达式是一种强大的文本...

    java字符模式识别

    在Java中,我们可以利用如OpenCV这样的图像处理库进行预处理,例如灰度化、二值化、噪声去除等,以便更好地提取字符特征。 特征提取是关键步骤,目的是从图像中抽取出对分类有用的特征。常见的方法有边缘检测、直方...

    java代码-正则去除HTML代码中的SCRIPT标签

    首先,`&lt;script&gt;`标签在HTML中用于引入外部脚本文件或内联编写JavaScript代码。为了从HTML字符串中移除这些标签,我们需要一个能够匹配它们的正则表达式。正则表达式的基本语法包括字符类、量词、分组等,对于`...

    java过滤html,css,js标签工具类(UnHtmlScript)

    在Java开发中,有时我们需要处理从网页抓取的数据,这些数据通常包含HTML、CSS和JavaScript标签,为了进一步处理和分析这些文本,我们需要将其净化,即去除这些格式化标签。`UnHtmlScript`工具类就是为了解决这个...

    java转化成html html转java

    3. **正则表达式**:在一些简单场景下,可以用正则表达式匹配并提取HTML中的特定字符串。 4. **XML DOM解析**:HTML可以视为XML的一种,因此也可以使用XML解析库如JDOM或DOM4J来处理HTML。 5. **网络爬虫**:在大...

    Java 字符串操作源码实例集.rar

    在Java编程语言中,字符串是极其重要且常用的数据类型,用于处理和操作文本。这个名为"Java 字符串操作源码实例集.rar"的压缩包集合了一组针对字符串操作的简单示例,非常适合Java初学者学习。下面我们将深入探讨...

    java去掉html标签 必须首先去掉双引号的正则.docx

    ### Java去除HTML标签并优先处理双引号的正则表达式方法 在处理网页内容时,经常需要将HTML标签从文本中移除,以便于进行后续的数据分析或文本处理工作。在Java中,可以通过正则表达式的方式实现这一功能。然而,在...

    去掉内容里的html标签

    这篇博客"去掉内容里的html标签"就探讨了如何有效地从文本中移除这些标记,以获取纯文本信息。 首先,我们需要理解HTML标签的基本概念。HTML(HyperText Markup Language)是一种用于创建网页的标准标记语言,它...

    java html串转换成文本串

    在HTML中,文本内容位于标签内部,如`这是一个标题&lt;/h1&gt;`。我们的目标就是提取出这些文本内容,忽略标签和属性。 在Java中,我们可以使用多种库来实现这个功能。一种流行的选择是Jsoup库,它是一个用于处理真实世界...

    解析字符串去除HTML代码,保留文字,图片,视频

    用正则表达式,去除字符串中的HTML代码并保留文字,图片,视频。

    Java 语言实现清除带 html 标签的内容方法

    在这个方法中,`&lt;[.[^&gt;]]*&gt;` 的正则表达式匹配任何以 `开始,以 `&gt;` 结束的字符序列(不包括 `&gt;`),从而去除所有HTML标签。然后,再次使用 `replaceAll` 函数去除空格。 需要注意的是,这两个方法都较为基础,可能...

    删除重复字符-Python与Java中实现字符串去重方法详解

    内容概要:本文详细介绍了多种使用 Python 和 Java 去除字符串中重复字符的方法。Python 中主要讲解了两种方法:一是利用字典(或集合)的唯一性特点;二是通过逐字符比较。而 Java 中则提供了三种解决方式:运用 ...

    java过滤html代码

    接下来,我们来看如何编写一个简单的Java方法,使用正则表达式来移除字符串中的HTML标签。以下是一个名为 `RemoveHtmlInString` 的类,其中包含一个静态方法 `removeHtmlTags`: ```java public class ...

Global site tag (gtag.js) - Google Analytics