`
liuwei1981
  • 浏览: 774112 次
  • 性别: Icon_minigender_1
  • 来自: 太原
博客专栏
F8258633-f7e0-30b8-bd3a-a0836a5f4de5
Java编程Step-by...
浏览量:161767
社区版块
存档分类
最新评论

java使用正则表达式去除字符串的html标签

阅读更多

     新闻内容或者博客文章,如果显示摘要,需要去除内容的html格式标签,找到一个正则表达式,实现了:

   

/**
	 * 删除input字符串中的html格式
	 * 
	 * @param input
	 * @param length
	 * @return
	 */
	public static String splitAndFilterString(String input, int length) {
		if (input == null || input.trim().equals("")) {
			return "";
		}
		// 去掉所有html元素,
		String str = input.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(
				"<[^>]*>", "");
		str = str.replaceAll("[(/>)<]", "");
		int len = str.length();
		if (len <= length) {
			return str;
		} else {
			str = str.substring(0, length);
			str += "......";
		}
		return str;
	}

 

分享到:
评论
10 楼 java菜菜鸟 2009-07-01  
不错,正是我需要用到的,哈哈
9 楼 liuwei1981 2009-03-18  
小马哥 写道
方法明显太过暴力,假如我的内容用<1><2><3>这样的形式来作为步骤的标示,那不是一样被删。
男人要绅士要优雅。
// 去掉所有html元素,   
String str = input.replaceAll("<[a-zA-Z]+[1-9]?[^><]*>", "")
                  .replaceAll("</[a-zA-Z]+[1-9]?>", "");


这样的数据表示在html代码里是不存在的吧,这些步骤标示被相应的html代码代替了
8 楼 小马哥 2009-03-18  
方法明显太过暴力,假如我的内容用<1><2><3>这样的形式来作为步骤的标示,那不是一样被删。
男人要绅士要优雅。
// 去掉所有html元素,   
String str = input.replaceAll("<[a-zA-Z]+[1-9]?[^><]*>", "")
                  .replaceAll("</[a-zA-Z]+[1-9]?>", "");
7 楼 司徒正美 2009-02-04  
ruby中的方法

<%=h truncate(product.description.gsub(/<.*?>/,''),:length => 80, :truncate_string =>"……") %>
6 楼 副团长 2008-11-26  
挺好的,正式我需要的。谢谢楼主分享
5 楼 hemahehe 2008-11-26  
songlipeng 写道
\\&[a-zA-Z]{1,10};
什么作用啊!没有看明白啊!


\\& &字符
[a-zA-Z]{1,10} 任意字母(包含大小写)组成的字串,长度为1到10


匹配例如:&lt; &gt; &nbsp; 之类的字串

4 楼 songlipeng 2008-11-26  
\\&[a-zA-Z]{1,10};
什么作用啊!没有看明白啊!
3 楼 liuwei1981 2008-10-09  
这是我在做一个网站时候用到的,也是从网络上获取的,很高兴能够帮助别人。
2 楼 yangzhihuan 2008-10-09  
非常感谢,刚刚用你的方法解决了在字符串去除HTML代码,我用的是ruby
1 楼 yangzhihuan 2008-10-09  
非常感谢,刚刚用你的方法解决了在字符串去除HTML代码,我用的是ruby
def normal_word(str)
    str.gsub!(/\\&[a-zA-Z]{1,10};/,'')
    str.gsub!(/<[^>]*>/,'')
    str.gsub!(/[(\/>)<]/,'')
  end

相关推荐

    java 利用正则表达式从字符串中提取省、市、区、镇、乡等区域名称(包含少数民族地区),支持地址中无省,无市,无县情况。

    java 利用正则表达式从字符串中提取省、市、区、镇、乡等区域名称(包含少数民族地区),支持地址中无省,无市,无县情况。

    Java正则表达式去除img标签的src内容

    java代码,从image标签中正则匹配取出src标签的内容,java代码,从image标签中正则匹配取出src标签的内容

    Java使用正则表达式去除小数点后面多余的0功能示例

    Java语言中使用正则表达式可以实现去除小数点后面多余的0的功能,这个功能示例主要介绍了Java使用正则表达式去除小数点后面多余的0功能,结合具体实例形式分析了java字符串正则替换相关操作技巧。 一、正则表达式的...

    java正则表达式过滤html标签

    ### Java正则表达式过滤HTML标签 在处理文本数据时,经常会遇到需要从HTML文档中提取纯文本内容的需求。为了去除HTML标记并保留有意义的文字部分,可以利用Java中的正则表达式来实现这一功能。本篇文章将详细介绍...

    神器验证正则表达式去除复制代码前的序号

    "神器验证正则表达式去除复制代码前的序号"这一主题,主要涉及如何利用正则表达式来解决在编程或文本编辑时遇到的一个常见问题:代码块中的序号。 当我们在网页、文档或者代码仓库中复制代码段时,有时这些代码段会...

    Java通过正则表达式获取字符串中数字的方法示例

    总结一下,Java通过正则表达式获取字符串中数字的基本步骤包括:编译正则表达式、创建`Matcher`对象、使用`replaceAll`替换非数字字符、使用`split`分割数字和使用`parseInt`转换数字。这个方法灵活且高效,适用于...

    Java使用正则表达式判断字符串是否以字符开始

    在Java编程中,正则表达式是一种强大的文本处理工具,常用于验证字符串格式、提取信息或进行复杂的查找和替换操作。本篇文章将详细介绍如何使用正则表达式来判断一个字符串是否以字符(字母)开始。 首先,让我们...

    精通正则表达式(第三版)简体中文版

    - **Java中的正则表达式**:Java提供了java.util.regex包来支持正则表达式的使用。 - **JavaScript中的正则表达式**:JavaScript的正则表达式对象提供了丰富的功能,包括全局匹配、忽略大小写等选项。 - **.NET框架...

    正则表达式列举 代码 项目中直接使用

    在项目中直接使用正则表达式可以极大地提高代码的效率和可读性。以下是对给定文件中的正则表达式知识点的详细解析: ### 1. 匹配中文字符 正则表达式:`[\u4e00-\u9fa5]` 此表达式用于匹配中文字符,其中`\u4e00`...

    Java使用正则表达式删除所有HTML标签的方法示例

    在Java编程中,正则表达式是处理字符串的强大工具,尤其在处理HTML文档时,能够有效地提取纯文本信息。本文将详细介绍如何使用Java的正则表达式来删除HTML标签,以便提取网页内容的核心部分。 首先,我们需要理解...

    正则表达式百度版

    例如,Python中的`re`模块、Java中的`java.util.regex`包、JavaScript中的`RegExp`对象等,都提供了丰富的正则表达式功能,使得开发者能够轻松地进行字符串操作。 #### 应用实例 正则表达式的应用十分广泛,以下是...

    正则表达式经典实例

    正则表达式是计算机科学领域中一种用于描述字符串模式的强大工具。它广泛应用于文本搜索、数据验证、字符串替换等多种场景。《正则表达式经典实例》这本书深入浅出地介绍了正则表达式的基本概念和高级特性,并提供了...

    java正则表达式大全。。

    根据提供的标题、描述、标签及部分内容,我们可以整理出关于Java正则表达式的多个知识点。以下是对这些内容的详细解析: ### Java正则表达式基础知识 #### 1. 基本概念 - **正则表达式**:一种用于匹配字符串模式...

    正则表达式工具The Regulator

    4. **文本处理**:在自动化脚本中,正则表达式可用于处理文本,如切割字符串、去除空白字符等。 The Regulator作为一款强大的正则表达式工具,它将复杂的正则表达式操作变得简单易用,无论是初学者还是经验丰富的...

    NLP正则表达式分析程序

    正则表达式是一种模式匹配工具,它允许用一种简洁的语法来描述一类字符串。在NLP中,正则表达式常用于识别特定的文本模式,如电子邮件地址、电话号码或特定的词汇结构。例如,使用正则表达式可以轻松找出所有以"the...

    java_正则表达式pattern类Matcher类_(字符串匹配)

    Java中的正则表达式是处理字符串的强大工具,它允许我们以模式匹配的方式对字符串进行复杂的查找、替换和分割操作。在Java中,正则表达式的处理主要涉及到两个核心类:`Pattern`和`Matcher`。 `Pattern`类是用于...

    java正则表达式.txt

    从给定的文件信息中,我们可以提取到一系列与Java正则表达式相关的知识点,这些正则表达式主要用于匹配和验证各种格式的字符串。下面将详细解释每个正则表达式的功能和应用场景。 ### 正则表达式知识点 1. **数字...

    Java正则表达式教程

    Java正则表达式教程是为那些想要深入了解Java编程语言中正则表达式使用方法的初学者准备的。正则表达式(Regular Expression)是一种强大的文本处理工具,它用于模式匹配、搜索、替换等操作,广泛应用于字符串处理和...

Global site tag (gtag.js) - Google Analytics