`
deepinmind
  • 浏览: 451532 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
1dc14e59-7bdf-33ab-841a-02d087aed982
Java函数式编程
浏览量:41628
社区版块
存档分类
最新评论

使用JSoup解析HTML文件

阅读更多

HTML是WEB的核心,互联网中你看到的所有页面都是HTML,不管它们是由JavaScript,JSP,PHP,ASP或者是别的什么WEB技术动态生成的。你的浏览器会去解析HTML并替你去渲染它们。不过如果你需要自己在Java程序中解析HTML文档并查找某些元素,标签,属性或者检查某个特定的元素是否存在的话,那又该如何呢?如果你已经使用Java编程多年了,我相信你肯定试过去解析XML,也使用过类似DOM或者SAX这样的解析器,不过很有可能你从未进行过任何的HTML解析的工作。更讽刺的是,在Java应用中,很少会有需要你去解析HTML文档的时候,这里并不包括Servlet或者其它的Java WEB技术。更糟糕的是,JDK核心里也没有包括HTTP或者HTML的库,至少我并不知道有这个。这就是为什么一碰上解析HTML文件时,许多Java程序员就得先Google一下 ,看看如何在Java中取出一个HTML的标签。当我有这个需要的时候,我相信肯定会有一些开源库能实现这个,不过我没有想到竟然有JSoup这么酷的并且功能齐全的库。它不仅能支持读取并解析HTML文档,而且还能让你从HTML文件抽取出任何的元素,以及它们的属性,它们的CSS属性,你还能进它们进行修改。有了JSoup你简直可以对HTML文档做任何事情。我们将会看到如何在Java中从google主页或者任何URL中下载并解析HTML文件的示例。

JSoup库是什么

Jsoup是一个开源的Java库,它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改,充分利用了DOM,CSS以及jquery风格方法的长处。Jsoup实现了WAHTWG HTML5的规范,它从HTML解析出来的DOM和Chrome以及Firefox这样的现代浏览器解析出来的完全一致。下面是Jsoup库的一些有用的特性:

  • Jsoup可以从URL,文件,或者字符串中获取并解析HTML。
  • Jsoup可以查找并提取数据,可以使用DOM遍历或者CSS选择器。
  • 你可以使用Jsoup来修改HTML元素,属性以及文本。
  • Jsoup通过一个安全的白名单确保了用户提交的内容是干净的,以防止XSS攻击。
  • Jsoup还能输出整洁的HTML。


Jsoup的设计初衷是用于处理现实生活中出现的各种不同的HTML,包括正确有效的HTML以及不完整的无效的标签集合。Jsoup的一个核心竞争力就是它的健壮性。

在Java中使用Jsoup进行HTML解析

在这篇Java HTML解析的教程中,我们会看到在Java中使用Jsoup解析及遍历HTML的三个不同的示例。第一个例子中,我们会解析一个HTML字符串,它的内容就是Java中的字符串字面量组成的标签。第二个例子中,我们会从WEB中下载HTML文档,而第三个例子中,我们会加载一个HTML示例文件login.html来进行解析。这个文件是一个HTML文档的示例,它包含title标签,body里面有一个div标签,里面包含一个表单。它拥有input标签来用于获取用户名及密码,同时还有提交及重置的按钮用来进行下一步操作。它是一个正确有效的HTML,也就是说,所有的标签和属性都是正确地闭合的。下面是我们这个HTML的示例文件:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> 
<html> 
<head> 
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> 
<title>Login Page</title> 
</head> 
<body> 
<div id="login" class="simple" > 
<form action="login.do"> 
Username : <input id="username" type="text" /><br> 
Password : <input id="password" type="password" /><br> 
<input id="submit" type="submit" /> 
<input id="reset" type="reset" /> 
</form> 
</div> 
</body> 
</html>

 



使用Jsoup来解析HTML非常简单,你只需调用它的静态方法Jsoup.parse()并传入你的HTML字符串给它就可以了。Jsoup提供了多个重载的parse()方法,它可以从字符串,文件,URI,URL,甚至InputStream中读取HTML文件。如果不是UTF-8编码的话,你还可以指定字符编码,这样可以正确地读取HTML文件。下面是Jsoup库中HTML解析方法的一个完整的列表。parse(String html)方法将输入的HTML解析成一个新的Document。在Jsoup里,Document继承了Element,而它又继承自Node。同样的TextNode也继承自Node。只要你传入的是一个不为null的字符串,你就肯定能获取到一个成功的有意义的解析,得到一个包含head和body元素的Document。一旦你拿到这个Document,你就可以调用Document以及它的父类Element和Node上面的适当的方法来获取到你想要的数据了。


解析HTML文档的Java程序


下面是一个解析HTML字符串,网络上下载的HTML文件,以及本地文件系统中的HTML文件的完整的Java程序。你可以使用Eclipse IDE或者别的IDE甚至命令来运行这个程序。在Eclipse里面则很简单,拷贝这份代码,新建一个Java工程,在src包上右键并粘贴进去就可以了。Eclipse会去创建正确的包及同名的Java源文件的,因此工作量最小。如果你已经有一个Java示例工程了,那么仅需一步就可以了。下面的这个Java程序展示了解析及遍历HTML文件的三个不同例子。第一个例子中,我们直接解析了一个内容为HTML的字符串,第二个例子中我们解析了一个从URL中下载的HTML文件,第三个中我们从本地文件系统中加载了一个HTML文档并进行解析。第一和第三个例子中都用到了parse方法来获取一个Document对象,你可以查询它来提取出任何的标签值或者属性值。第二个例子中,我们用到了Jsoup.connect方法,它会去创建URL的连接,下载HTML并进行解析。这个方法也会返回Document,它可以用于后续的查询及获取标签或者属性的值。


import java.io.IOException;
 
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;


/**
[*] Java Program to parse/read HTML documents from File using Jsoup library.
[*] Jsoup is an open source library which allows Java developer to parse HTML
[*] files and extract elements, manipulate data, change style using DOM, CSS and
[*] JQuery like method.
[*]
[*] @author Javin Paul
[*]/
public class HTMLParser{
 
    public static void main(String args[]) {
 
        // Parse HTML String using JSoup library
        String HTMLSTring = "<!DOCTYPE html>"
                + "<html>"
                + "<head>"
                + "<title>JSoup Example</title>"
                + "</head>"
                + "<body>"
                + "|[b]HelloWorld[/b]"
                + ""
                + "</body>"
                + "</html>";
 
        Document html = Jsoup.parse(HTMLSTring);
        String title = html.title();
        String h1 = html.body().getElementsByTag("h1").text();
 
        System.out.println("Input HTML String to JSoup :" + HTMLSTring);
        System.out.println("After parsing, Title : " + title);
        System.out.println("Afte parsing, Heading : " + h1);
 
        // JSoup Example 2 - Reading HTML page from URL
        Document doc;
        try {
            doc = Jsoup.connect("http://google.com/").get();
            title = doc.title();
        } catch (IOException e) {
            e.printStackTrace();
        }
 
        System.out.println("Jsoup Can read HTML page from URL, title : " + title);
 
        // JSoup Example 3 - Parsing an HTML file in Java
        //Document htmlFile = Jsoup.parse("login.html", "ISO-8859-1"); // wrong
        Document htmlFile = null;
        try {
            htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } // right
        title = htmlFile.title();
        Element div = htmlFile.getElementById("login");
        String cssClass = div.className(); // getting class form HTML element
 
        System.out.println("Jsoup can also parse HTML file directly");
        System.out.println("title : " + title);
        System.out.println("class of div tag : " + cssClass);
    }
 
}


输出:

Input HTML String to JSoup :<!DOCTYPE html><html><head><title>JSoup Example</title></head><body><table><tr><td><h1>HelloWorld</h1></tr></table></body></html>
After parsing, Title : JSoup Example
Afte parsing, Heading : HelloWorld
Jsoup Can read HTML page from URL, title : Google
Jsoup can also parse HTML file directly title : Login Page
class of div tag : simple

 


Jsoup的好处就是它的健壮性很强。Jsoup HTML解析器会对你提供的HTML进行尽量干净的解析,而不去考虑这个HTML是否是格式良好的。它可以处理如下这些错误:未闭合的标签(比如,Java <p>Scala to <p>Java
Scala
),隐式标签(比如,一个裸的|Java is Great被封装到了

|里面),它总能创建出一个文档结构(包含head及body的HTML,并且head里只会包含正确的元素)。这就是在Java中如何进行HTML的解析。Jsoup是一个优秀的健壮的开源库,它使得读取HTML文档,body片段,HTML字符串,以及直接从WEB中解析HTML内容都变得相当简单。在这篇文章中,我们学习了如何在Java中获取一个特定的HTML标签,正如第一个例子中我们将title及H1标签的值提取成了文本,而第三个例子中我们学习到了如何通过提取CSS属性来从HTML标签中获取属性值。除了强大的jQuery风格的html.body().getElementsByTag("h1").text()方法,你还可以提取任意的HTML标签,它还提供了像Document.title()和Element.className()这样便捷的方法,你可以快速获取到标题及CSS类。希望JSoup能让你玩得愉快,很快我们将会看到关于这个API的更多的一些例子。更多文章请移步我的个人博客:Java译站原创文章转载请注明出处:http://it.deepinmind.com英文原文链接 

3
2
分享到:
评论

相关推荐

    android使用jsoup 解析html文件

    接下来,我们将讨论如何在Android中使用`jsoup`解析HTML文件并替换内容。 1. **读取HTML文件** - 如果HTML文件存储在网络服务器上,你可以使用`HttpURLConnection`或`OkHttp`等网络库获取HTML内容。 - 如果HTML...

    使用Jsoup对Html文件解析

    在本文中,我们将深入探讨如何使用Jsoup解析HTML文件,并进一步将解析的数据导出到Excel表格。 首先,我们需要理解Jsoup的基本用法。Jsoup的核心在于`Connection`和`Document`对象。`Connection`用于建立与网页的...

    jsoup解析xml文件

    在给定的资源中,我们可以看到一个使用jsoup解析XML文件的简单示例。 首先,我们来理解jsoup的基本用法。jsoup的核心类是`org.jsoup.Jsoup`,它提供了从字符串、URL或文件加载HTML或XML文档的方法。例如,要解析XML...

    Jsoup解析html的示例

    - **本地HTML解析**:处理存储在本地的HTML文件,提取有用信息。 - **动态更新UI**:根据网页内容动态更新应用的用户界面。 - **网络请求优化**:预加载和缓存部分网页数据,提高用户体验。 **注意事项** - 考虑到...

    用Jsoup解析html的所有jar包

    这个压缩包文件“用Jsoup解析html的所有jar包”显然是包含了使用Jsoup进行HTML解析所需的全部依赖。 首先,我们需要了解Jsoup的基本用法。Jsoup的核心功能在于它能够通过连接到一个URL或读取本地HTML文件来获取HTML...

    Jsoup解析html+xml

    二、Jsoup解析HTML 1. **连接并下载HTML文档**:Jsoup提供`connect()`方法连接到URL并下载HTML内容,然后使用`get()`方法获取下载的文档。 ```java Document doc = Jsoup.connect("http://example.com").get(); ...

    Android使用Jsoup技术解析HTML

    **Android使用Jsoup技术解析HTML** Jsoup是一个Java库,专为处理真实世界的HTML而设计。在Android开发中,我们经常需要从网页抓取数据,比如解析新闻标题、获取图片链接或者提取用户评论等。Jsoup提供了一种简单、...

    jsoup解析html修改文件名

    本文将深入探讨如何使用Jsoup解析HTML,并根据解析结果来修改文件名。我们将通过一个简单的示例来展示这个过程。 首先,我们需要理解Jsoup的基本用法。Jsoup库提供了一个强大的API,可以方便地解析HTML文档,提取...

    jsoupAPI解析html

    **jsoup API解析HTML** jsoup是一个非常强大的Java库,专为处理真实世界的HTML而设计。它提供了方便的API,用于提取和操作数据,使用DOM,CSS和jQuery-like方法。在深入jsoup的API之前,我们需要理解HTML解析的重要...

    jsoup解析HTML

    在名为"NewSipder"的项目中,你可能正在构建一个网络爬虫,利用JSoup解析HTML内容。爬虫可能包括以下步骤: 1. **设置连接参数**:配置Jsoup连接,如超时时间、重试次数等。 2. **抓取页面**:使用`Jsoup.connect()...

    Jsoup操作解析Html文件

    至于提供的"新建文件夹",可能包含了一些示例代码或HTML文件,用于演示如何使用Jsoup进行操作。在实际项目中,可以参考这些文件来加深理解和应用Jsoup。记得,通过阅读和实践这些示例,可以更好地掌握Jsoup的用法,...

    Jsoup库文件;Jsoup解析Java包

    在解析HTML时,Jsoup首先将HTML文档转化为一个DOM(Document Object Model)树,这个树状结构代表了HTML文档的结构。通过这个树,开发者可以轻松地遍历和操作文档中的各个元素。例如,你可以通过`getElementById()`...

    使用Jsoup库解析HTML、XML或URL链接中的DOM节点

    接下来,我们将探讨如何使用Jsoup解析HTML内容: 1. **连接URL并解析** 使用Jsoup的`connect()`方法,可以建立到指定URL的连接,并获取HTML内容。然后调用`get()`方法,解析返回的HTML字符串。 ```java ...

    Java中使用开源库JSoup解析HTML文件实例

    接下来,让我们通过一个具体的例子来了解如何在Java程序中使用JSoup解析HTML文件。假设我们有一个简单的HTML页面,它包含一个登录表单,该表单要求用户输入用户名和密码。这个页面用一个名为login.html的文件表示,...

    jsoup解析html所需包1.7.3

    标题中的"jsoup解析html所需包1.7.3"表明我们将讨论的是JSoup 1.7.3版本,这个版本包含了三个关键的组件。 1. **jsoup-1.7.3.jar**:这是JSoup的核心库文件,包含了所有用于解析HTML的类和方法。开发人员在项目中...

    Jsoup解析html中文文档

    ### Jsoup解析HTML中文文档 #### 一、jsoup简介及优势 **jsoup**是一款专为Java设计的HTML解析库,它可以帮助开发者方便地解析HTML文档,支持直接解析URL地址、HTML文本等内容。jsoup提供了简洁易用的API接口,...

    Jsoup解析Html获取新闻列表

    - 使用Jsoup解析HTML的第一步是创建Document对象。这可以通过连接到URL或读取本地文件完成。例如: ```java URL url = new URL("http://example.com/news"); Document doc = Jsoup.connect(url).get(); ``` ...

    Jsoup源码以及chm文件

    Jsoup是一款非常流行的Java库,专门用于解析HTML和XML文档。它提供了丰富的API,使得开发者可以轻松地抓取、分析和操作网页内容。这个压缩包包含的“Jsoup源码”意味着你可以深入理解其内部工作机制,这对于开发者...

    在android中使用jsoup解析页面链接

    在Android开发中,有时我们需要与网页交互,抓取或解析HTML内容,比如获取网页上的特定信息,这通常可以通过使用Jsoup库来实现。Jsoup是一个Java库,它提供了丰富的API来处理HTML文档,使得在Android中解析网页链接...

    jsoup解析返回的html

    以上就是关于使用JSoup解析HTML的一些基础知识,包括如何连接网页、获取HTML、使用CSS选择器、遍历元素、修改属性以及提取链接等内容。在实际开发中,JSoup的灵活性和强大功能使其成为处理HTML文档的得力工具。

Global site tag (gtag.js) - Google Analytics