`
starbhhc
  • 浏览: 655417 次
  • 性别: Icon_minigender_2
  • 来自: 深圳
社区版块
存档分类
最新评论

java 读取html过滤标签

    博客分类:
  • java
 
阅读更多

public static void main(String[] args) {

String str="<p>  qweqwe你好啊。<a>我我我我qweqwe</a></p>";

System.out.println(stripHtml(str).trim());

                System.out.println(delHTMLTag(str).trim());

 

}

 

使用正则表达式删除HTML标签。 

import java.util.regex.Matcher; 

import java.util.regex.Pattern; 

 

public class HTMLSpirit{ 

    public static String delHTMLTag(String htmlStr){ 

        String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式 

        String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 

        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式 

         

        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE); 

        Matcher m_script=p_script.matcher(htmlStr); 

        htmlStr=m_script.replaceAll(""); //过滤script标签 

         

        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE); 

        Matcher m_style=p_style.matcher(htmlStr); 

        htmlStr=m_style.replaceAll(""); //过滤style标签 

         

        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE); 

        Matcher m_html=p_html.matcher(htmlStr); 

        htmlStr=m_html.replaceAll(""); //过滤html标签 

 

        return htmlStr.trim(); //返回文本字符串 

    } 

 

}

 

 

Java中去掉网页HTML标记的方法 
Java里面去掉网页里的HTML标记的方法: 

/** 
* 去掉字符串里面的html代码。<br> 
* 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。 

* @param content 
* 内容 
* @return 去掉后的内容 
*/ 

 

 

public static String stripHtml(String content) { 

// <p>段落替换为换行 

content = content.replaceAll("<p .*?>", "\r\n"); 

// <br><br/>替换为换行 

content = content.replaceAll("<br\\s*/?>", "\r\n"); 

// 去掉其它的<>之间的东西 

content = content.replaceAll("\\<.*?>", ""); 

// 还原HTML 

// content = HTMLDecoder.decode(content); 

return content; 

 

}

  • T.rar (896 Bytes)
  • 下载次数: 0
分享到:
评论

相关推荐

    Java中配置过滤器

    ### Java中配置过滤器 在Java Web开发中,过滤器(Filter)是一种非常重要的机制,它可以在请求到达目标资源之前或响应返回客户端之后执行特定的操作。例如,可以使用过滤器来实现统一的编码设置、安全控制、日志...

    用Java输出HTML文件

    这涉及到创建HTML结构,如`&lt;html&gt;`, `&lt;body&gt;`标签,以及每个URL的`&lt;a&gt;`标签。 ```java String htmlContent = "&lt;html&gt;&lt;head&gt;&lt;title&gt;My Favorites&lt;/title&gt;&lt;/head&gt;&lt;body&gt;"; for (int i = 0; i (); i++) { ...

    java+FFmpeg+JavaCV实现无控件HTML页面视频实时预览,录像等,RTSP协议

    综上所述,这个项目融合了多个高级IT技术,展示了如何在Java环境中集成FFmpeg和JavaCV来实现复杂的实时视频处理功能,同时利用RTSP协议和WebSocket提供无控件的HTML5视频预览和录像服务。这样的技术组合在物联网、...

    贝叶斯垃圾邮件过滤

    3. **预处理模块**:邮件内容通常需要进行一些预处理,比如去除停用词(如“the”,“and”等常见但无明确含义的词)、转换为小写、删除HTML标签等。 4. **特征提取**:从预处理后的文本中提取有意义的特征,如单词...

    JAVA htmlparser 使用实例

    下面的代码示例展示了如何读取HTML文件的内容,并利用`HtmlParser`从中提取第一个`&lt;table&gt;`标签的相关信息。 #### 示例代码分析 首先,我们需要读取HTML文件的内容。这里使用了`BufferedReader`和`...

    STRUTS ActionForm乱码,servlet全局过滤器转义编码。

    Struts框架中的ActionForm乱码问题以及Servlet全局过滤器的转义编码处理是Java Web开发中常见的字符编码问题。在开发基于Struts的Web应用时,乱码主要出现在三个方面:页面显示乱码、参数传递乱码以及国际化资源文件...

    Kettle API(HTML格式)

    例如,"CSV输入"步骤用于从CSV文件中读取数据,"Java脚本"步骤则允许用户编写自定义的JavaScript代码进行数据处理。 2. **Job(作业)**:作业是Kettle中的一系列步骤的逻辑组合,它们按照特定的顺序和条件执行。...

    js中使用 C标签 获取request中的list的值

    C标签和S标签分别来源于JSP(Java Server Pages)中的标准标签库(JSTL,JavaServer Pages Standard Tag Library)。C标签是核心标签库的一部分,提供了许多用于数据处理、流程控制和条件判断的功能。例如,`...

    基于Java的源码-HTML文档解析器 HTMLParser.zip

    要使用HTMLParser,首先需要将其添加为项目的依赖,然后通过创建Parser对象,设置解析策略,调用parse方法读取HTML文件。之后,可以利用解析结果进行进一步的数据处理。 例如,以下是一个简单的使用HTMLParser解析...

    李兴华Java Web开发实战经典(高清版) Part2

    MLDN 李兴华 Java Web 开发实战经典.pdf (高清版) 全书分为两部分,需 要全部下载下载一起解压,此部分为第二部分 带有书签,清华大学出版社 第1章 JAVA WEB开发简介 1.1、WEB发展历程 1.2、企业开发架构 ...

    孙卫琴Java Web全套源码

    8. **ch12**: 可能讲解了Java Web中的标签库(Tag Library),如JSTL(JavaServer Pages Standard Tag Library),它是提高JSP页面可读性和可维护性的工具。 9. **charset**: 这个目录可能涉及到字符编码问题,如...

    java开源包6

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包9

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包4

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    java开源包101

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

    javajsp中使用HTMLParser

    1. **解析HTML文档**:HTMLParser能够读取HTML源码,并将其转化为一系列的事件,如开始标签、结束标签、文本等。开发者可以通过监听这些事件来处理HTML结构。 2. **DOM树构建**:HTMLParser能够构建一个基于DOM...

    JAVA上百实例源码以及开源项目源代码

    Java从网络取得文件 1个目标文件 简单 Java从压缩包中提取文件 1个目标文件 简单 Java存储与读取对象 1个目标文件 如题 Java调色板面板源代码 1个目标文件 摘要:Java源码,窗体界面,调色板 使用Java语言编写的一款...

    java开源包5

    GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可实现分页数据显示、数据排序和过滤等功能! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以...

Global site tag (gtag.js) - Google Analytics