- 浏览: 121753 次
- 性别:
- 来自: 南宁
文章分类
最新评论
使用正则表达式删除HTML标签。
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HTMLSpirit{
public static String delHTMLTag(String htmlStr){
String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式
Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
Matcher m_script=p_script.matcher(htmlStr);
htmlStr=m_script.replaceAll(""); //过滤script标签
Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
Matcher m_style=p_style.matcher(htmlStr);
htmlStr=m_style.replaceAll(""); //过滤style标签
Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
Matcher m_html=p_html.matcher(htmlStr);
htmlStr=m_html.replaceAll(""); //过滤html标签
return htmlStr.trim(); //返回文本字符串
}
}
import java.util.regex.Pattern;
public class HTMLSpirit{
public static String delHTMLTag(String htmlStr){
String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式
Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
Matcher m_script=p_script.matcher(htmlStr);
htmlStr=m_script.replaceAll(""); //过滤script标签
Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
Matcher m_style=p_style.matcher(htmlStr);
htmlStr=m_style.replaceAll(""); //过滤style标签
Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
Matcher m_html=p_html.matcher(htmlStr);
htmlStr=m_html.replaceAll(""); //过滤html标签
return htmlStr.trim(); //返回文本字符串
}
}
发表评论
-
android 横屏重启的解决方案
2011-09-19 15:45 1610Android每次屏幕的横竖切换Activity会重新OnCr ... -
java 类的序列化
2011-08-30 11:57 838序列化: 可以将一个对象保存到一个文件,所以可以通过流的方式 ... -
android全屏显示的方法
2011-08-15 11:16 1474我们在开发程序是经常会需要软件全屏显示、自定义标题(使用按钮等 ... -
模仿AJAX上传文件
2011-07-27 11:08 0首先要说的就是 ajax 是无法实现上传文件的,可以想一下aj ... -
模仿AJAX上传文件
2011-07-27 11:08 664首先要说的就是 ajax 是无法实现上传文件的,可以想一下aj ... -
模仿AJAX上传文件
2011-07-27 11:07 706首先要说的就是 ajax 是无法实现上传文件的,可以想一下aj ... -
模仿AJAX上传文件
2011-07-27 11:07 901首先要说的就是 ajax 是无法实现上传文件的,可以想一下aj ... -
java链接数据库乱码解决方案
2011-05-20 17:56 1276Java乱码问题解决方 ... -
java 连接数据库实例
2011-03-16 11:43 1027package com.dao;import java.sql ... -
java html标签过滤类
2011-02-12 00:24 1220import java.util.regex.Matcher; ... -
java 批量下载图片,批量打包文件并下载
2011-02-11 14:15 17361、批量下载网页上,动态生成的图片到服务器上指定的目录中 2、 ... -
myeclipse 注册的方法
2011-02-11 00:42 700import java.io.BufferedReader;i ... -
利用java.net包访问网络,连接网页并返回html页面代码
2011-02-11 00:28 1456package org.kevin;import java.n ... -
j2me 环境搭建
2011-01-17 09:17 858用Eclipse和WTK搭建J2ME开发环境 关键字: j2 ... -
jdbc 连接sql2008的问题解决
2010-12-31 16:24 1576首先下JDBC4,然后解压在C ... -
Struts 开发帮助文件
2010-12-25 23:58 603一、 概述struts是基于当前的一些相关标准的开发技术 ... -
java给图片加图片水印
2010-12-08 21:00 800package com.test;import java.aw ... -
java连接数据库大全
2010-11-06 10:30 782JAVA连接数据库大全 关键字: 数据库连接大全 J ... -
两个数组求并集
2010-10-26 22:59 1892对两个数组求并集,由于对数组的操作不是很熟悉,所以将数组中的数 ... -
关于数组的常见题型(交叉合并、交集、并集、插入、删除、比较)
2010-10-26 22:59 2582public class Arrays{ //求两数组的 ...
相关推荐
总结来说,Java中清除HTML标签的方法主要依赖于正则表达式,通过匹配和替换实现。这些方法虽然简单,但在大多数情况下可以满足基本需求。然而,当遇到更复杂的HTML内容时,应考虑使用专门的HTML解析库,以确保更准确...
### 去除HTML标签的需求背景 在处理来自不同来源的数据时,特别是从网页抓取或API接口获取的数据,这些数据往往包含HTML标签。例如,当我们从一个网站上抓取文章内容时,返回的数据可能是带有各种HTML标签的文本...
1. **HTML标签去除**:这个工具类可能会提供一个方法,例如`removeHtmlTags(String content)`,用于删除HTML标签,只保留文本内容。这通常涉及到正则表达式,如`/*?>/g`,来匹配并替换HTML标签。 2. **CSS去除**:...
为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍如何使用Java中的正则表达式库来过滤HTML标签。 #### 一、正则表达式简介 正则表达式是一种强大的文本...
### Java去除HTML标签并优先处理双引号的正则表达式方法 在处理网页内容时,经常需要将HTML标签从文本中移除,以便于进行后续的数据分析或文本处理工作。在Java中,可以通过正则表达式的方式实现这一功能。然而,在...
总结来说,使用Java和正则表达式去除HTML中的A标签是一种常见的文本处理任务,但需要注意的是,这种方法对于简单的情况有效,对于复杂的HTML结构可能不够健壮。对于更复杂的需求,推荐使用专门的HTML解析库。
这些标签主要在JavaServer Pages(JSP)中使用,极大地简化了视图层的开发工作,使得开发者能够更专注于业务逻辑,而不是HTML的繁琐编写。下面我们将深入探讨一些常见的Java Web标签及其应用。 1. JSP标准标签库...
需要注意的是,正则表达式处理HTML有一定的局限性,特别是当HTML标签嵌套或者存在复杂结构时。对于更复杂的HTML处理,可能需要使用像Jsoup这样的库,它提供了更强大的解析和操作HTML的能力。 在实际项目中,`README...
6. **文本处理**:如果HTML转Java的目标是提取纯文本,可能需要去除HTML标签,只保留文本内容,这时可以使用Jsoup的`text()`方法或者自定义逻辑。 在提供的文件中,`java2html.java`可能是一个实现了将Java数据转换...
而Java的正则表达式功能可以用来匹配并删除字符串中的HTML标签,下面将详细介绍在Java中如何使用正则表达式去除HTML标签。 首先,我们需要了解几个关键概念。正则表达式(Regular Expression)是一种字符序列,它...
`matcher.replaceAll("")` 将所有匹配到的HTML标签替换为空字符串,从而达到去除HTML标签的效果。 在 `main` 方法中,我们创建了一个包含HTML的示例字符串,并调用 `removeHtmlTags` 进行过滤,最后打印出过滤后的...
在这个例子中,`text`变量现在包含了去除了HTML标签的纯文本:"标题 这是内容。" 4. 处理特殊情况:如果需要更复杂的处理,比如保留某些标签的格式(如段落),可以使用`outerHtml()`方法结合正则表达式进行处理。...
在Java世界中,自定义标签(Custom Tags)是JSP(JavaServer Pages)技术的一个重要特性,它允许开发者创建可重用的组件,类似于HTML标签,但具备更强大的功能和灵活性。这种技术使得代码更加清晰,提高了开发效率,...
标题“java使用正则表达式过滤html标签”意味着文章的主题是关于如何使用Java编程语言结合正则表达式来清除或处理HTML标签,这是在处理Web开发中经常会遇到的需求。描述中提到,文章将介绍这一技术,并希望读者通过...
本篇将详细讲解如何使用Java去除HTML标签,尤其是涉及到双引号的处理。 首先,注意到题目提到的“必须首先去掉双引号的正则”,这是因为HTML标签中经常使用双引号来包围属性值,如`<div class="example">`。如果不...
从给定文件描述中,我们可以提取到知识点:使用Java语言,利用正则表达式来过滤HTML标签,提取纯文本信息。下面是详细的知识点解析: 知识点一:正则表达式的基础概念 正则表达式是一种文本模式,包括普通字符...
在Web开发中,经常需要处理用户提交的数据,为了避免XSS攻击等问题,通常需要对这些数据进行一定的处理,比如转义HTML特殊字符、清除HTML标签以及从CSS样式中提取有用的信息等。本文将详细介绍如何使用Java来实现...
本文将详细介绍如何使用Java的正则表达式来删除HTML标签,以便提取网页内容的核心部分。 首先,我们需要理解HTML标签的一般结构。HTML标签通常以`开始,`>`结束,并可能包含属性。例如,`<script>`和`<style>`标签...
这个场景中,我们关注的是如何使用Java和正则表达式来移除HTML代码中的`<script>`标签,因为这些标签通常包含JavaScript代码,可能对页面的呈现或安全有特殊影响。下面我们将深入探讨这个话题。 首先,`<script>`...
此资源中去除了源码中的`<object>`标签,可能是因为`<object>`在Java Web开发中通常用于嵌入多媒体内容,与主要的Web开发标签相比,其使用频率相对较低。 首先,我们来看HTML标签。HTML(超文本标记语言)是网页的...