`
shuai1234
  • 浏览: 971849 次
  • 性别: Icon_minigender_1
  • 来自: 山西
社区版块
存档分类
最新评论

Java清除HTML标签

    博客分类:
  • java
阅读更多




       使用正则表达式删除HTML标签。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HTMLSpirit{
    public static String delHTMLTag(String htmlStr){
        String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式
        
        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
        Matcher m_script=p_script.matcher(htmlStr);
        htmlStr=m_script.replaceAll(""); //过滤script标签
        
        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
        Matcher m_style=p_style.matcher(htmlStr);
        htmlStr=m_style.replaceAll(""); //过滤style标签
        
        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
        Matcher m_html=p_html.matcher(htmlStr);
        htmlStr=m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }
}


Java中去掉网页HTML标记的方法
Java里面去掉网页里的HTML标记的方法:

/**
* 去掉字符串里面的html代码。<br>
* 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。
*
* @param content
* 内容
* @return 去掉后的内容
*/
public static String stripHtml(String content) {
// <p>段落替换为换行
content = content.replaceAll("<p .*?>", "\r\n");
// <br><br/>替换为换行
content = content.replaceAll("<br\\s*/?>", "\r\n");
// 去掉其它的<>之间的东西
content = content.replaceAll("\\<.*?>", "");
// 还原HTML
// content = HTMLDecoder.decode(content);
return content;
}
分享到:
评论

相关推荐

    Java 语言实现清除带 html 标签的内容方法

    总结来说,Java中清除HTML标签的方法主要依赖于正则表达式,通过匹配和替换实现。这些方法虽然简单,但在大多数情况下可以满足基本需求。然而,当遇到更复杂的HTML内容时,应考虑使用专门的HTML解析库,以确保更准确...

    去掉所有的html标签

    ### 去除HTML标签的需求背景 在处理来自不同来源的数据时,特别是从网页抓取或API接口获取的数据,这些数据往往包含HTML标签。例如,当我们从一个网站上抓取文章内容时,返回的数据可能是带有各种HTML标签的文本...

    java过滤html,css,js标签工具类(UnHtmlScript)

    1. **HTML标签去除**:这个工具类可能会提供一个方法,例如`removeHtmlTags(String content)`,用于删除HTML标签,只保留文本内容。这通常涉及到正则表达式,如`/*?&gt;/g`,来匹配并替换HTML标签。 2. **CSS去除**:...

    java正则表达式过滤html标签

    为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍如何使用Java中的正则表达式库来过滤HTML标签。 #### 一、正则表达式简介 正则表达式是一种强大的文本...

    java去掉html标签 必须首先去掉双引号的正则.docx

    ### Java去除HTML标签并优先处理双引号的正则表达式方法 在处理网页内容时,经常需要将HTML标签从文本中移除,以便于进行后续的数据分析或文本处理工作。在Java中,可以通过正则表达式的方式实现这一功能。然而,在...

    java代码-正则去除HTML代码中的A标签

    总结来说,使用Java和正则表达式去除HTML中的A标签是一种常见的文本处理任务,但需要注意的是,这种方法对于简单的情况有效,对于复杂的HTML结构可能不够健壮。对于更复杂的需求,推荐使用专门的HTML解析库。

    java web 标签大全

    这些标签主要在JavaServer Pages(JSP)中使用,极大地简化了视图层的开发工作,使得开发者能够更专注于业务逻辑,而不是HTML的繁琐编写。下面我们将深入探讨一些常见的Java Web标签及其应用。 1. JSP标准标签库...

    java代码-正则去除HTML代码中的IMG标签

    需要注意的是,正则表达式处理HTML有一定的局限性,特别是当HTML标签嵌套或者存在复杂结构时。对于更复杂的HTML处理,可能需要使用像Jsoup这样的库,它提供了更强大的解析和操作HTML的能力。 在实际项目中,`README...

    java转化成html html转java

    6. **文本处理**:如果HTML转Java的目标是提取纯文本,可能需要去除HTML标签,只保留文本内容,这时可以使用Jsoup的`text()`方法或者自定义逻辑。 在提供的文件中,`java2html.java`可能是一个实现了将Java数据转换...

    Java中正则表达式去除html标签

    而Java的正则表达式功能可以用来匹配并删除字符串中的HTML标签,下面将详细介绍在Java中如何使用正则表达式去除HTML标签。 首先,我们需要了解几个关键概念。正则表达式(Regular Expression)是一种字符序列,它...

    java过滤html代码

    `matcher.replaceAll("")` 将所有匹配到的HTML标签替换为空字符串,从而达到去除HTML标签的效果。 在 `main` 方法中,我们创建了一个包含HTML的示例字符串,并调用 `removeHtmlTags` 进行过滤,最后打印出过滤后的...

    java html串转换成文本串

    在这个例子中,`text`变量现在包含了去除了HTML标签的纯文本:"标题 这是内容。" 4. 处理特殊情况:如果需要更复杂的处理,比如保留某些标签的格式(如段落),可以使用`outerHtml()`方法结合正则表达式进行处理。...

    JAVA自定义标签例子

    在Java世界中,自定义标签(Custom Tags)是JSP(JavaServer Pages)技术的一个重要特性,它允许开发者创建可重用的组件,类似于HTML标签,但具备更强大的功能和灵活性。这种技术使得代码更加清晰,提高了开发效率,...

    java使用正则表达式过滤html标签

    标题“java使用正则表达式过滤html标签”意味着文章的主题是关于如何使用Java编程语言结合正则表达式来清除或处理HTML标签,这是在处理Web开发中经常会遇到的需求。描述中提到,文章将介绍这一技术,并希望读者通过...

    java去掉html标签 必须首先去掉双引号的正则

    本篇将详细讲解如何使用Java去除HTML标签,尤其是涉及到双引号的处理。 首先,注意到题目提到的“必须首先去掉双引号的正则”,这是因为HTML标签中经常使用双引号来包围属性值,如`&lt;div class="example"&gt;`。如果不...

    java过滤html标签获取纯文本信息的实例

    从给定文件描述中,我们可以提取到知识点:使用Java语言,利用正则表达式来过滤HTML标签,提取纯文本信息。下面是详细的知识点解析: 知识点一:正则表达式的基础概念 正则表达式是一种文本模式,包括普通字符...

    JAVA实现html转义字符及css清除_.docx

    在Web开发中,经常需要处理用户提交的数据,为了避免XSS攻击等问题,通常需要对这些数据进行一定的处理,比如转义HTML特殊字符、清除HTML标签以及从CSS样式中提取有用的信息等。本文将详细介绍如何使用Java来实现...

    Java使用正则表达式删除所有HTML标签的方法示例

    本文将详细介绍如何使用Java的正则表达式来删除HTML标签,以便提取网页内容的核心部分。 首先,我们需要理解HTML标签的一般结构。HTML标签通常以`开始,`&gt;`结束,并可能包含属性。例如,`&lt;script&gt;`和`&lt;style&gt;`标签...

    java代码-正则去除HTML代码中的SCRIPT标签

    这个场景中,我们关注的是如何使用Java和正则表达式来移除HTML代码中的`&lt;script&gt;`标签,因为这些标签通常包含JavaScript代码,可能对页面的呈现或安全有特殊影响。下面我们将深入探讨这个话题。 首先,`&lt;script&gt;`...

    Java Web 标签大全(完全离线版)

    此资源中去除了源码中的`&lt;object&gt;`标签,可能是因为`&lt;object&gt;`在Java Web开发中通常用于嵌入多媒体内容,与主要的Web开发标签相比,其使用频率相对较低。 首先,我们来看HTML标签。HTML(超文本标记语言)是网页的...

Global site tag (gtag.js) - Google Analytics