`
小网客
  • 浏览: 1243795 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

jsoup之文本过滤

 
阅读更多

背景:

基于jsoup(v 1.6.3)解析出来的网页内容进行过滤不需要的内容比如<script>

实现:

一种方式是基于tag的白名单,这种方式明显没有黑名单合适,不过jsoup木有提供黑名单功能

直接基于正则,常用的如下:

如:过滤<script>

String reg = "<\\s*?script[^>]*?>[\\s\\S]*?<\\s*?/\\s*?script\\s*?>";
Pattern pattern = Pattern.compile(reg);
Matcher matcher = pattern.matcher(content.html());
articleVo.setContent(matcher.replaceAll(""));
0
0
分享到:
评论

相关推荐

    文本过滤NHtmlFilter v1.0源码2012811

    文本过滤NHtmlFilter v1.0源码 源码描述: 开发环境:vs2008 开源代码NHtmlFilter 过滤Html危险脚本 防止XSS攻击 如何防止XSS攻击,在.net做web开发上真的很弱。 底层框架,基础类库是很不完善。又是做互联网应用,...

    JsoupAPI(jsoup帮助文档)

    然而,使用时仍需注意输入验证和过滤,以确保数据安全。此外,Jsoup对内存和CPU使用进行了优化,使其适合处理大型HTML文档。 总之,Jsoup API是处理和解析HTML的强大工具,其易用性和灵活性使其在Web爬虫、网页数据...

    jsoup1.10.3包和jsoupApi帮助文档

    - **内容过滤**:在用户生成内容的场景下,Jsoup可以帮助过滤掉恶意的HTML标签和属性,保障安全。 总的来说,jsoup1.10.3及其API文档是Web开发人员的得力工具,无论是在爬虫项目还是网页数据处理中,都能发挥巨大...

    jsoup-jsoup-1.6.1.zip

    5. **安全过滤**:在解析过程中,jsoup可以对HTML内容进行安全过滤,避免XSS(跨站脚本攻击)的发生。它可以自动转义HTML特殊字符,防止恶意代码注入。 6. **连接与下载**:jsoup还提供了连接功能,可以直接从URL...

    jsoup-jsoup-1.12.2.zip

    3. **数据提取**:jsoup提供了方便的数据提取API,允许开发者轻松获取HTML元素的属性值,如文本内容、链接、图片地址等。这对于爬虫和数据挖掘项目非常有用。 4. **安全链接提取**:jsoup包含了一个链接安全过滤器...

    jsoup爬虫学习之爬取博客(包含jsoup jar包)

    `jsoup`不仅可以用于爬虫,还可以用于数据清洗、内容过滤等任务。它支持HTML5标准,能很好地处理真实世界中不规范的HTML结构。 总结来说,`jsoup`是Java开发者进行网页抓取的强大工具,它的易用性和灵活性使其成为...

    org.jsoup.jar

    论坛系统则可能用它来解析用户的帖子内容,进行安全过滤。 总之,Jsoup作为Java中强大的HTML处理工具,其易用性和灵活性使得它在处理HTML相关任务时成为了首选。了解并熟练掌握Jsoup,对于提升Java开发者的Web数据...

    jsoup-1.11.3.jar

    2. **DOM操作**:Jsoup提供了一套类似于DOM的操作API,允许开发者对HTML元素进行增删改查,比如查找元素(`select()`)、获取属性值(`attr()`)、修改文本内容(`text()`)等。 3. **清理和标准化**:Jsoup能自动...

    jsoup-1.7.1 chm

    jsoup能够防御跨站脚本(XSS)攻击,通过其内置的XSS防御机制,可以在提取和展示用户提供的HTML内容时,自动过滤潜在的恶意代码。 ### 应用场景 jsoup广泛应用于各种项目,包括爬虫框架、内容管理系统、数据提取...

    jsoup-1.8.1.jar

    - **内容过滤与安全**:在用户提交的HTML内容中移除潜在的恶意脚本,确保网站安全性。 **3. 示例代码:** ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class JsoupExample { ...

    2010最新解析html开源项目jsoup源码及api下载及jsoup.jar

    3. **提取数据**:通过`.text()`、`.attr()`获取元素文本和属性值。 4. **修改元素**:使用`.append()`、`.prepend()`、`.html()`等方法修改元素内容。 5. **遍历DOM树**:利用迭代器或递归遍历整个HTML结构。 6. **...

    jsoup1.8.1jar包

    此外,Jsoup还提供了便利的方法如 `text()` 获取元素内的纯文本,`attr("attribute")` 获取或设置元素属性,以及 `append()` 和 `prepend()` 等用于修改元素内容。 在**数据提取**方面,Jsoup提供了强大的功能。...

    jsoup-1.11.2.jar.zip

    - **内容提取**:在处理用户输入的HTML内容时,jsoup可以帮助提取和过滤掉不安全的HTML标签,防止XSS攻击。 - **网页爬虫**:构建简单的网页爬虫时,jsoup可以解析和分析网页结构,提取有用的数据。 - **数据迁移*...

    jsoup相关jar包

    - **内容过滤**:在处理用户输入时,可以使用JSoup进行XSS(跨站脚本攻击)防护,清理不安全的HTML内容。 **总结** JSoup是一个强大的HTML处理库,提供了丰富的API来解析、操作和提取HTML数据。通过jsoup-proxy....

    jsoup jar包

    **JSoup库详解** JSoup是一个Java库,它专门设计用于处理HTML,提供了一套强大而灵活的API,使得在Java程序中解析、提取和修改HTML数据变得异常简单。这个库受到了jQuery的启发,因此其语法对前端开发者来说非常...

    jsoup1.7.2

    虽然jsoup提供了一些基本的安全措施,如通过`Whitelist`过滤不安全的HTML,但用户仍需根据应用场景采取适当的防御策略。 8. **性能与兼容性** jsoup 1.7.2版本优化了性能,并保持了对各种Java环境的良好兼容性,...

    jsoup网页内容分析

    - **内容过滤与清洗**:在处理用户提交的HTML内容时,JSoup可以用来清除恶意代码或不合规的HTML结构,保障网站安全。 综上所述,JSoup作为一款强大的HTML处理工具,无论是解析、提取还是操作HTML内容,都展现出了其...

    jsoup官网最新版-1.11.2(含jar、resource、doc)

    - **内容过滤和清洗**:在网站开发中,jsoup可以用来过滤用户输入,防止XSS攻击。 - **移动应用开发**:对于那些需要从网页获取数据的移动应用,jsoup是一个很好的选择,因为它的API简单且易于集成。 - **教育和...

    Jsoup1.10.2.jar

    5. **数据提取**:Jsoup能够方便地提取网页中的文本、链接、图片等信息,对于网页抓取和信息提取任务非常实用。例如,`Elements links = doc.select("a[href]");`可以获取所有链接元素。 6. **安全处理**:Jsoup在...

Global site tag (gtag.js) - Google Analytics