`

使用Jsoup对HTML进行解析

 
阅读更多
http://blog.csdn.net/a2bgeek/article/details/7860954
貌似解析HTML的工具名字都是XXsoup,比如python的beautifulsoup,这里介绍一下java的Jsoup。我这里只说我使用的感受。
Jsoup可以解析服务器上的、本地的HTML文件,将里面的标签过滤掉,得到有用的内容,。
比如只需要<title>标签的内容,

解析本地的:需要把文件放到IO流中
Document doc = Jsoup.parse(inputStream, "UTF-8", "http://www.google.com.hk/");  
String title = doc.title(); 


解析服务器上的:
Document doc = Jsoup.connect("http://www.XXX.com/").get();   
String title = doc.title(); 
 

再比如需要整个<body>中的内容,
Document doc = Jsoup.parse(inputStream, "UTF-8", "http://www.google.com.hk/");  
Element body = doc.body();  
String text = body.text(); 


下面的的链接是Jsoup的帮助文档:
http://jsoup.org/apidocs/
下面是官方的SDK:
Jsoup1.6.3
还有一个我学习Jsoup的链接:
http://www.oschina.net/code/tag/jsoup
分享到:
评论

相关推荐

    使用Jsoup对Html文件解析

    【Jsoup:HTML解析与Excel生成详解】 Jsoup是一个Java库,它提供了强大的功能来解析HTML,提取和操作数据。这个库的设计理念是使处理HTML变得简单,类似于jQuery的API,使得开发者能够方便地访问和操作HTML元素。在...

    使用Jsoup解析html网页

    6. **节点操作**:Jsoup允许我们对元素进行增删改查的操作,如添加新的元素、删除元素、更新属性值或替换元素内容。 ### 示例代码 下面是一个简单的示例,展示了如何使用Jsoup连接到一个网页,选择特定元素并提取...

    Android使用Jsoup技术解析HTML

    使用Jsoup进行HTML解析 首先,我们需要在Android项目中添加Jsoup的依赖。在`build.gradle`文件中,添加以下代码: ```groovy dependencies { implementation 'org.jsoup:jsoup:1.13.1' } ``` 然后,我们创建一个...

    使用 jsoup 对 HTML 文档进行解析和操作

    **标题:“使用 jsoup 对 HTML 文档进行解析和操作”** **内容概述:** 这篇博客主要探讨了如何利用 jsoup 这个 Java 库来解析和操作 HTML 文档。jsoup 是一个强大的库,它提供了丰富的 API,可以方便地解析 HTML、...

    android使用jsoup 解析html文件

    本文将深入探讨如何在Android中利用`jsoup`库解析HTML文件并进行内容替换。 首先,让我们了解什么是`jsoup`。`jsoup`是一个Java库,提供了一种简单而强大的API,用于处理现实世界中的HTML。它可以解析HTML,提取和...

    使用Jsoup库解析HTML、XML或URL链接中的DOM节点

    本篇文章将详细介绍如何使用Jsoup进行HTML、XML甚至URL链接的DOM解析。 首先,理解DOM(Document Object Model)是至关重要的。DOM是一种标准,它将HTML和XML文档表示为一棵树形结构,每个部分都是树上的一个节点。...

    jsoupAPI解析html

    在深入jsoup的API之前,我们需要理解HTML解析的重要性。在Web开发中,经常需要从网页抓取数据,例如爬虫、数据提取或者自动化测试,这时就需要用到HTML解析工具。 **jsoup的核心概念** 1. **连接(Connection)**...

    使用Jsoup解析HTML数据的Demo

    这是使用Jsoup解析HTML得到数据的一个小例子,具体的使用方法请参见我的博客:http://blog.csdn.net/ProgramChangesWorld/article/details/47134255

    Jsoup解析html的示例

    **Jsoup:HTML解析库** Jsoup是一款Java库,它为了解析、提取以及操作HTML提供了强大的功能。在Android开发中,Jsoup尤其有用,因为它能够帮助开发者从网页中提取结构化数据,这对于网络爬虫或者任何需要从网页获取...

    jsoup Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容

    **jsoup:Java的HTML解析库** jsoup是一款强大的Java库,专为处理HTML文档而设计。它允许开发者轻松地解析、提取和修改HTML内容,就像在Web浏览器中使用jQuery那样方便。jsoup的主要功能包括: 1. **HTML解析**:...

    用Jsoup解析html的所有jar包

    这个压缩包文件“用Jsoup解析html的所有jar包”显然是包含了使用Jsoup进行HTML解析所需的全部依赖。 首先,我们需要了解Jsoup的基本用法。Jsoup的核心功能在于它能够通过连接到一个URL或读取本地HTML文件来获取HTML...

    jsoup:Java HTML 解析器

    jsoup:Java HTML 解析器 jsoup是一个用于处理现实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器,提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。 jsoup实现了WHATWG HTML5规范...

    Jsoup解析html+xml

    Jsoup是一款非常强大的Java库,专门用于处理HTML和XML文档,提供了一系列简洁的API来抓取、解析、修改以及格式化这些文档。...通过熟练掌握Jsoup的API和使用技巧,可以轻松地完成各种网页数据的解析和处理任务。

    jsoup解析html所需包1.7.3

    **JSoup:HTML解析库** JSoup是一款强大的Java库,专为处理和解析HTML文档而设计。它提供了简单易用的API,使开发者能够轻松地提取数据、操作DOM(文档对象模型)以及清理HTML。标题中的"jsoup解析html所需包1.7.3...

    Jsoup操作解析Html文件

    至于提供的"新建文件夹",可能包含了一些示例代码或HTML文件,用于演示如何使用Jsoup进行操作。在实际项目中,可以参考这些文件来加深理解和应用Jsoup。记得,通过阅读和实践这些示例,可以更好地掌握Jsoup的用法,...

    jsoup解析HTML

    **JSoup:强大的HTML解析库** JSoup是一个用于处理实际世界HTML的Java库。它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。在JavaScript中,我们通常会使用jQuery来操作DOM,但在...

    jsoup对网页的解析

    `jsoup`作为Java中一个强大的HTML解析库,提供了丰富的API来处理HTML文档,包括解析、提取数据和修改文档。本文将详细探讨如何使用`jsoup`对网页进行解析,涵盖从基本的链接提取到更复杂的元素选择,旨在帮助读者...

    Jsoup解析与使用

    **Jsoup解析与使用** Jsoup是一款非常实用的Java库,专为网页抓取和解析而设计。它提供了丰富的API,使得开发者可以方便地提取结构化数据,类似于浏览器执行JavaScript的方式,但更专注于HTML文档的处理。Jsoup的...

    jsoup和jtidy 对html操作,将不规范的html转换为xhtml

    Jtidy基于Tidy,一个C++实现的HTML解析器,它能将不规范的HTML转换为结构化的XHTML。Jtidy允许开发者调整许多清理和规范化选项,比如是否强制所有标签闭合,是否删除不合法的HTML属性等。这使得Jtidy在处理大量不...

Global site tag (gtag.js) - Google Analytics