`
276833190
  • 浏览: 14372 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用正则表达式去除html中的标签元素以及js和css脚本和样式

    博客分类:
  • java
阅读更多
public static void main(String[] args) {
		String str = readFile(new File("D:\\workspace\\izbra_front\\WebRoot\\aa\\aa.java"));
		// 先过滤 script 标签
		String reg_tag = "<[\\s]*?#t#[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?#t#[\\s]*?>".replace("#t#", "script");
		str = Pattern.compile(reg_tag,Pattern.CASE_INSENSITIVE).matcher(str).replaceAll("");
		// 再 过滤 hmtl 标签
		reg_tag = "<[^>]+>";
		reg_tag = "<[\\s\\S]*?>";
		str = Pattern.compile(reg_tag,Pattern.CASE_INSENSITIVE).matcher(str).replaceAll("");
		str = str.replaceAll(" ", "");
		str = str.replaceAll("\n{1,}", "#");
		str = str.startsWith("#") ? str.substring(1) : str;
		str = str.endsWith("#") ? str.substring(0, str.length() - 1) : str;
		System.out.println("数量=="+str.split("#").length);
		str = str.replaceAll("#", "\n");
		System.out.println(str);
		
		
	}
	
	public static String readFile(File file){
		StringBuilder sb = new StringBuilder();
		try {
			BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(file), "UTF-8"));
			String line = null;
			while((line = br.readLine()) != null){
				if("添加".equals(line))
					continue;
				sb.append(line+"\n");
			}
			br.close();
		} catch (Exception e) {
			e.printStackTrace();
		} 
		return sb.toString();
	}

 

0
1
分享到:
评论

相关推荐

    C#使用正则表达式过滤html标签

    在C#中,我们可以使用正则表达式来匹配这些标签并进行替换。 以下是一个C#方法,展示了如何使用正则表达式来过滤HTML标签: ```csharp public static string Html2Text(string htmlStr) { if (String....

    Python使用正则表达式去除(过滤)HTML标签提取文字功能

    本篇文章主要探讨了如何利用正则表达式去除HTML标签并提取文本内容。这在数据清洗、网页抓取等领域非常常见,因为原始HTML源码中通常包含了大量格式化标签,而我们可能只关心纯文本信息。 首先,我们需要导入Python...

    c# 正则表达式对网页进行有效内容抽取

    例如,通过正则表达式去除了HTML文档中的注释、script脚本、style样式以及其他所有HTML标签。 1. 去除注释的正则表达式使用了 `&lt;!--` 和 `--&gt;` 作为匹配的开始和结束,中间可以包含任意数量的非`-`字符。这里使用了...

    c# 正则表达式对网页进行内容抓取_.docx

    在上述文档中,我们看到如何利用正则表达式去除HTML文本中的特定部分,以便提取出纯文本内容。以下是关键知识点的详细说明: 1. **去除HTML注释**: 使用`&lt;!--[^-]*--&gt;`这个正则表达式可以匹配并移除HTML注释。`&lt;!...

    e语言-易语言取网页正文

    在取网页正文的过程中,开发者可能会用到正则表达式去除HTML标签,定位并提取出主要的文本内容。例如,常见的正则表达式如`&lt;[^&gt;]*&gt;`可以匹配所有的HTML标签,通过匹配并替换这些标签,可以得到较为纯净的文本。 在...

    易语言正文提取

    相比之下,"纯净清除HTML标签"可能是指更彻底的清理过程,不仅移除标签,还会去除CSS样式、JavaScript脚本等其他非文本内容,使得结果更加纯净,更适合后续的正文分析。 综上所述,"易语言正文提取"源码实现了一...

    asp过滤实现过滤所有的HTML代码

    下面介绍一个简单的HTML标签过滤函数,该函数利用正则表达式来去除字符串中的HTML标签。 #### 四、函数实现细节 1. **函数定义:** ```vb Function RemoveHTML(strText) ``` - `strText`参数:传入需要过滤...

    jquery源码 带格式

    通过以上对jQuery源码的部分分析,我们可以看出jQuery在设计上考虑了兼容性、性能以及安全性,采用了大量的正则表达式进行字符串和DOM元素的处理,并提供了丰富的工具函数和API来简化JavaScript的编程工作。

    100个直接可以拿来用的JavaScript实用功能代码片段(1-10)

    86、原生JavaScript用正则表达式清除html代码中的脚本 87、原生JavaScript动态执行JavaScript脚本 88、原生JavaScript动态执行VBScript脚本 89、原生JavaScript实现金额大写转换函数 90、原生JavaScript常用的正则...

    。net 网页新闻抓取

    为了提高新闻摘要的可读性,需要从HTML中移除不必要的元素,如JavaScript脚本和CSS样式。这部分可以通过以下代码实现: ```csharp string filteredContent = new Regex(@"(?m)[^&gt;]*&gt;(\w|\W)*?[^&gt;]*&gt;", RegexOptions...

    asp中去除html中style,javascript,css代码

    在ASP(Active Server Pages)中去除HTML代码中嵌入的style、javascript和css代码是Web开发中常见的需求,这通常是为了避免代码被客户端浏览器直接访问,以提高安全性和防止潜在的XSS(跨站脚本攻击)风险。通过正则...

    易语言-易语言过滤HTML,JS,CSS,空格,换行符

    可以查找并删除所有以 "&lt;style&gt;" 开始和 "&lt;/style&gt;" 结束的块,或者使用正则表达式去除CSS选择器和声明。 至于空格和换行符,它们在某些情况下可能会影响文本分析的结果。易语言提供了多种字符串处理函数,例如...

    php中去除所有js,html,css代码

    在提供的代码示例中,定义了一个搜索数组`$search`,它包含了多个正则表达式,分别用于匹配不同的标签、脚本和样式代码。同时,定义了一个替换数组`$replace`,用于指定匹配到的内容应该如何替换。 正则表达式`'[^&gt;...

    html富文本离线转换输出自带标签和内容的字符串、编辑内容并输出其相应编辑后的格式字符串

    这可以通过DOM操作或正则表达式实现,例如使用JavaScript的`innerHTML`或`innerText`属性,或者使用DOM遍历方法。 4. **内容编辑与格式化**:编辑后的富文本需要保持其原有的格式。这意味着当用户进行修改时,编辑...

    web考题资源

    【HTML】HTML(HyperText Markup Language)是一种用于创建...这些题目涵盖了Web开发的基础知识,包括HTML标签、CSS选择器、JavaScript语法、XML解析和正则表达式的使用。理解和掌握这些知识点对于Web开发者至关重要。

    PHP实现过滤各种HTML标签

    8. 过滤掉`&lt;style&gt;`标签:样式标签可以内嵌CSS代码,可能会被用于执行JavaScript代码,因此也应当被过滤。 9. 字符串中的其他潜在危险字符的过滤:例如`cookie`、`javascript`、`vbscript`等敏感词汇,虽然它们本身...

    js表单验证,基本功能都有,有待完善,可供学习

    JavaScript(简称JS)是网页开发中用于实现动态交互的重要脚本语言,特别是在表单验证方面,它发挥着不可或缺的作用。本资源提供了一个简单的JS表单验证示例,旨在帮助学习者理解和掌握基本的验证技巧。虽然这个实现...

    asp只采集网站可见文本的正则

    在上述的【标题】和【描述】中提到的"asp只采集网站可见文本的正则"是一个功能,旨在通过正则表达式去除HTML标签,从而获取页面上的纯文本内容。以下是对这个功能的详细解释和优化建议。 首先,我们要理解正则...

    简单的HTML+css+js实现表单验证

    4. **验证邮箱字段**:使用正则表达式匹配邮箱格式,如果不符合格式则同样创建一个错误提示元素并插入到输入框后方。 5. **返回结果**:如果所有验证均通过,则返回 `true`,允许表单提交;反之则返回 `false`,阻止...

Global site tag (gtag.js) - Google Analytics