`

网页去除html元素

阅读更多

*、去除html元素

 public static String splitAndFilterString(String input, int length) {   
        if (input == null || input.trim().equals("")) {   
            return "";   
        }   
        // 去掉所有html元素,   
		//--------------------
		String htmlStr = input; // 含html标签的字符串
		String str = "";
		java.util.regex.Pattern p_script;
		java.util.regex.Matcher m_script;
		java.util.regex.Pattern p_style;
		java.util.regex.Matcher m_style;
		java.util.regex.Pattern p_html;
		java.util.regex.Matcher m_html;
		java.util.regex.Pattern p_ba;
		java.util.regex.Matcher m_ba;
		try {
			String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*? \\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
			// }
			String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*? \\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
			// }
			String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
			String patternStr = "\\s+";
			p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
			m_script = p_script.matcher(htmlStr);
			htmlStr = m_script.replaceAll(""); // 过滤script标签

			p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
			m_style = p_style.matcher(htmlStr);
			htmlStr = m_style.replaceAll(""); // 过滤style标签
			p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
			m_html = p_html.matcher(htmlStr);
			htmlStr = m_html.replaceAll(""); // 过滤html标签
			p_ba = Pattern.compile(patternStr, Pattern.CASE_INSENSITIVE);
			m_ba = p_ba.matcher(htmlStr);
			htmlStr = m_ba.replaceAll(" "); // 过滤空格
			str = htmlStr;
		} catch (Exception e) {
			e.printStackTrace();
		}
		
        int len = str.length();   
        if (len <= length) {  
		    str = str.replace("\'", "\''");
           return str;   
      } else {   
            str = str.substring(0, length);   
            str += "...";  
			str = str.replace("\'", "\''");
        }   
        return str;   
   }  

    input:带有html元素的字段

 length:目标长度

分享到:
评论

相关推荐

    Chrome和Firefox插件可快速删除网页上的元素

    标题中的“Chrome和Firefox插件可快速删除网页上的元素”是指一种利用浏览器扩展来实现的网页自定义功能,用户可以通过安装特定的插件在浏览网页时去除不想要的元素,如广告、弹窗或者任何干扰视线的内容。...

    web打印去掉页眉页脚,以及不想打印出的页面元素

    在网页打印过程中,有时我们可能需要去除不必要的页眉、页脚以及特定的页面元素,以获得更整洁的打印效果。本文将深入探讨如何通过CSS和JavaScript实现这一目标,以优化Web打印体验。 首先,理解CSS媒体查询是关键...

    去除编辑器样式中HTML

    在网页开发过程中,我们经常需要处理富文本编辑器生成的内容,这些内容可能包含了各种HTML标签和样式,有时候为了保持页面的统一性和整洁性,我们需要去除编辑器生成的HTML样式。这个过程涉及到HTML解析、DOM操作...

    易语言html元素过滤

    首先,HTML元素过滤是Web开发中的一个重要环节,它通常用于提取网页中的特定信息或者去除不必要或有害的元素。在易语言中,我们可以使用字符串处理函数和正则表达式来实现这一功能。例如,通过查找并替换特定的HTML...

    网页打印去掉页眉页脚,以及控制不需要打印的内容

    网页打印是将网页内容输出到纸质媒介上的过程,而在实际操作中,我们有时希望去除不必要的页眉和页脚,或者对打印内容进行精确控制。在本文中,我们将深入探讨如何实现这一目标,主要关注如何在网页打印时去掉页眉...

    html网页内容抓取

    通过解析HTML代码,我们可以获取到网页上的文字、图片、链接等各种元素。 在进行HTML网页内容抓取时,通常有两种主要的方法: 1. **使用浏览器扩展或插件**:例如,可以使用如Chrome的“Web Scraper”插件,它允许...

    去掉所有的html标签

    HTML是一种用于创建网页的标准标记语言,它通过一系列预定义的元素来描述文本、图像和其他媒体的形式与结构。然而,在某些应用场景下,如文本分析、数据清洗或内容展示等,我们可能需要将包含HTML标签的原始文本转换...

    易语言源码易语言html元素过滤源码.rar

    本压缩包中的源码是关于易语言在处理HTML元素过滤方面的实现,对于理解和学习易语言如何操作HTML内容,以及进行数据清洗和安全过滤具有重要的参考价值。 首先,我们需要了解HTML元素过滤的基本概念。HTML...

    基于网页框架和规则的网页噪音去除方法

    表格是网页布局中常用的一种元素,经常用于展示数据或者组织内容,但往往也是噪音内容的集中地。通过对每个表格的宽度和高度比例进行比较,删除那些宽高比过大的表格,因为这样的表格通常不包含主要内容。 接下来,...

    HTML5+CSS3网页设计-第五章 使用CSS美化网页元素.pptx

    本章主要探讨如何使用CSS3来美化网页元素,包括字体样式、文本样式、超链接样式、列表样式、背景样式以及渐变效果。下面我们将深入讲解这些知识点。 首先,我们来看CSS中用于突出文本的标签和属性。`&lt;span&gt;`标签常...

    CSS样式文件设置网页中的页面元素的CSS

    在网页设计中,CSS(Cascading Style Sheets)是一种至关重要的技术,用于定义网页中各个元素的外观、布局和结构。CSS通过分离内容与表现,使得网页设计更加灵活且易于维护。本篇将深入探讨标题提及的“CSS样式文件...

    去掉html

    在IT行业中,"去掉html"这个主题涉及到网页内容的处理,特别是从HTML文档中提取纯文本内容。HTML(HyperText Markup Language)是用于创建网页的标准标记语言,它包含各种标签来定义页面结构和样式。然而,在某些...

    html5去掉图片背景颜色

    在HTML5中,去除图片背景颜色主要涉及到Canvas元素的应用以及JavaScript的编程技术。本文将详细介绍如何利用HTML5 Canvas技术来实现去除图片背景颜色的效果。 #### 一、HTML5 Canvas简介 HTML5 Canvas是用于图形...

    去除元素之间的空格1

    在网页设计中,元素间的空格处理是一项常见的任务,特别是在布局和排版中。本文将详细探讨如何通过CSS样式来去除元素之间的空格,以解决标题中提到的问题——"去除元素之间的空格1",并以`&lt;a&gt;`标签为例进行讲解。 ...

    asp.net 去除HTML的标签的一个方法

    ### ASP.NET去除HTML标签的方法详解 在Web开发中,经常需要处理用户提交的数据,并将其安全地展示在网页上。为了防止XSS攻击等安全问题,一个常见的做法是去除或转义HTML标签。本文将详细介绍ASP.NET中去除HTML标签...

    HTMLAsText V1.11英文绿色版(网页转文本工具 剔除网页中的HTML标记).rar

    HTMLAsText工具就是为了解决这个问题而设计的,它能够快速、有效地从HTML源代码中提取出纯文本,保留原始内容的同时去除不必要的HTML元素。 使用HTMLAsText V1.11的步骤通常包括以下几个关键点: 1. **下载与安装*...

    仿网页简洁扁平html5欧美风格ppt模板.rar

    标题中的“仿网页简洁扁平html5欧美风格ppt模板”是指一种设计风格独特、结合了网页设计元素的PPT模板,特别强调了HTML5技术的运用。这种模板旨在为演示文稿提供一种现代、简洁且扁平化的设计,通常会采用欧美流行的...

    html超链接去掉下划线

    首先,我们需要了解HTML中的超链接元素`&lt;a&gt;`。它是用来创建超链接的基础标签,可以链接到其他网页、文件、电子邮件地址或页面内的特定位置。默认情况下,浏览器会为`&lt;a&gt;`元素添加下划线,以区分普通文本。 要去除...

Global site tag (gtag.js) - Google Analytics