`
wandejun1012
  • 浏览: 2719651 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

java去除html标签

    博客分类:
  • java
 
阅读更多

 

利用正则表达式即可,见如下代码:

 

import java.util.regex.Matcher; 
import java.util.regex.Pattern; 

public class HTMLSpirit{ 
    public static String delHTMLTag(String htmlStr){ 
        String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式 
        String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 
        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式 
         
        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE); 
        Matcher m_script=p_script.matcher(htmlStr); 
        htmlStr=m_script.replaceAll(""); //过滤script标签 
         
        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE); 
        Matcher m_style=p_style.matcher(htmlStr); 
        htmlStr=m_style.replaceAll(""); //过滤style标签 
         
        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE); 
        Matcher m_html=p_html.matcher(htmlStr); 
        htmlStr=m_html.replaceAll(""); //过滤html标签 

        return htmlStr.trim(); //返回文本字符串 
    } 
} 


Java中去掉网页HTML标记的方法 
Java里面去掉网页里的HTML标记的方法: 

/** 
* 去掉字符串里面的html代码。<br> 
* 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。 
* 
* @param content 
* 内容 
* @return 去掉后的内容 
*/ 
public static String stripHtml(String content) { 
// <p>段落替换为换行 
content = content.replaceAll("<p .*?>", "\r\n"); 
// <br><br/>替换为换行 
content = content.replaceAll("<br\\s*/?>", "\r\n"); 
// 去掉其它的<>之间的东西 
content = content.replaceAll("\\<.*?>", ""); 
// 还原HTML 
// content = HTMLDecoder.decode(content); 
return content; 
}

 

参考URL:http://xiejincheng.blog.51cto.com/2307724/722731

分享到:
评论

相关推荐

    java去掉html标签 必须首先去掉双引号的正则.docx

    ### Java去除HTML标签并优先处理双引号的正则表达式方法 在处理网页内容时,经常需要将HTML标签从文本中移除,以便于进行后续的数据分析或文本处理工作。在Java中,可以通过正则表达式的方式实现这一功能。然而,在...

    去掉所有的html标签

    为了更好地处理这些数据,例如进行文本分析或者将其显示在不支持HTML渲染的环境中,就需要去除其中的HTML标签。 ### Java实现方法详解 #### 方法定义 在给定的代码片段中,`stripTags`方法接受一个名为`...

    Java 语言实现清除带 html 标签的内容方法

    在Java编程中,有时我们需要处理含有HTML标签的文本,例如从网页抓取的数据或用户输入包含HTML格式的内容。为了进一步处理这些数据,我们可能需要清除HTML标签,仅保留纯文本内容。以下是一个简单的Java方法,用于...

    java过滤html,css,js标签工具类(UnHtmlScript)

    1. **HTML标签去除**:这个工具类可能会提供一个方法,例如`removeHtmlTags(String content)`,用于删除HTML标签,只保留文本内容。这通常涉及到正则表达式,如`/*?&gt;/g`,来匹配并替换HTML标签。 2. **CSS去除**:...

    java去掉html标签 必须首先去掉双引号的正则

    本篇将详细讲解如何使用Java去除HTML标签,尤其是涉及到双引号的处理。 首先,注意到题目提到的“必须首先去掉双引号的正则”,这是因为HTML标签中经常使用双引号来包围属性值,如`&lt;div class="example"&gt;`。如果不...

    java正则表达式过滤html标签

    ### Java正则表达式过滤HTML标签 在处理文本数据时,经常会遇到需要从HTML文档中提取纯文本内容的需求。为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍...

    java代码-正则去除HTML代码中的A标签

    总结来说,使用Java和正则表达式去除HTML中的A标签是一种常见的文本处理任务,但需要注意的是,这种方法对于简单的情况有效,对于复杂的HTML结构可能不够健壮。对于更复杂的需求,推荐使用专门的HTML解析库。

    java代码-正则去除HTML代码中的IMG标签

    需要注意的是,正则表达式处理HTML有一定的局限性,特别是当HTML标签嵌套或者存在复杂结构时。对于更复杂的HTML处理,可能需要使用像Jsoup这样的库,它提供了更强大的解析和操作HTML的能力。 在实际项目中,`README...

    java转化成html html转java

    6. **文本处理**:如果HTML转Java的目标是提取纯文本,可能需要去除HTML标签,只保留文本内容,这时可以使用Jsoup的`text()`方法或者自定义逻辑。 在提供的文件中,`java2html.java`可能是一个实现了将Java数据转换...

    java过滤html代码

    `matcher.replaceAll("")` 将所有匹配到的HTML标签替换为空字符串,从而达到去除HTML标签的效果。 在 `main` 方法中,我们创建了一个包含HTML的示例字符串,并调用 `removeHtmlTags` 进行过滤,最后打印出过滤后的...

    Java中正则表达式去除html标签

    而Java的正则表达式功能可以用来匹配并删除字符串中的HTML标签,下面将详细介绍在Java中如何使用正则表达式去除HTML标签。 首先,我们需要了解几个关键概念。正则表达式(Regular Expression)是一种字符序列,它...

    去掉内容里的html标签

    在IT行业中,处理文本数据时,经常会遇到要去除...而`TextHtml.java`这个文件名可能是该博客提供的一个示例代码文件,用于演示如何去掉HTML标签的具体实现。在实际操作中,可以结合这个文件进一步理解和学习相关知识。

    java html串转换成文本串

    在这个例子中,`text`变量现在包含了去除了HTML标签的纯文本:"标题 这是内容。" 4. 处理特殊情况:如果需要更复杂的处理,比如保留某些标签的格式(如段落),可以使用`outerHtml()`方法结合正则表达式进行处理。...

    java代码-正则去除HTML代码中的SCRIPT标签

    这个场景中,我们关注的是如何使用Java和正则表达式来移除HTML代码中的`&lt;script&gt;`标签,因为这些标签通常包含JavaScript代码,可能对页面的呈现或安全有特殊影响。下面我们将深入探讨这个话题。 首先,`&lt;script&gt;`...

    JAVA自定义标签例子

    在Java世界中,自定义标签(Custom Tags)是JSP(JavaServer Pages)技术的一个重要特性,它允许开发者创建可重用的组件,类似于HTML标签,但具备更强大的功能和灵活性。这种技术使得代码更加清晰,提高了开发效率,...

    Java使用正则表达式删除所有HTML标签的方法示例

    本文将详细介绍如何使用Java的正则表达式来删除HTML标签,以便提取网页内容的核心部分。 首先,我们需要理解HTML标签的一般结构。HTML标签通常以`开始,`&gt;`结束,并可能包含属性。例如,`&lt;script&gt;`和`&lt;style&gt;`标签...

    Java Web 标签大全(完全离线版)

    此资源中去除了源码中的`&lt;object&gt;`标签,可能是因为`&lt;object&gt;`在Java Web开发中通常用于嵌入多媒体内容,与主要的Web开发标签相比,其使用频率相对较低。 首先,我们来看HTML标签。HTML(超文本标记语言)是网页的...

    JAVA过滤标签实现将html内容转换为文本的方法示例

    1. 使用正则表达式去掉HTML标签:在将html内容转换为文本时,需要去掉html标签,从而获取纯文本内容。可以使用正则表达式来实现该操作,例如去掉head标签、注释、样式、js代码、word标签、xml标签等。 2. 使用...

    Java 获取Html文本中的img标签下src中的内容方法

    Java 获取Html文本中的img标签下src中的内容方法 Java 获取Html文本中的img标签下src中的内容方法是指通过Java编程语言从HTML文本中提取img标签下的src属性的内容的方法。该方法可以用于爬虫、数据挖掘、网页解析等...

Global site tag (gtag.js) - Google Analytics