`
leozam
  • 浏览: 29397 次
社区版块
存档分类
最新评论

html解析利器-JSOUP

 
阅读更多
因项目需求,需要跨项目调取别的项目的接口。
尝试着用java.net包里的URLConnection获取连接,然后用io包里的BufferedReader 读取调用外部项目接口后返回的网址的内容。
代码形如:
StringBuilder ans = new StringBuilder();
URL u= new URL(url);
URLConnection con = u.openConnection();
BufferedReader in = new BufferedReader(new InputStreamReader(
                                        con.getInputStream()));
String inputLine = null;
while ( (inputLine = in.readLine()) != null) {
          ans.append(inputLine);
        }
in.close();

但是由于外部项目里的接口所返回的数据是直接通过response.getWriter().write()进行展示的。且该方法可能经过跳转或其它处理,故以上代码无法获得任何内容。
遂网上搜索方法,终于发现JSOUP这个工具。
百度对其的解释是:
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
看着很炫酷,实际使用一下才知道到底有没有用。遂有如下代码:
Document doc=Jsoup.connect(url).get();
String str=doc.text();
“叮”,居然读出来了!
不管URL有没有跳转,JSOUP都能够完美得读到其内容。实是令人欣喜。
因时间关系,JSOUP其它功能暂未探索,故先将此文贴出,以供日后查阅。
0
0
分享到:
评论

相关推荐

    html解析利器 jsoup-1.7.1-sources.jar

    java开源工具 html解析利器 jsoup-1.7.1-sources.jar

    jsoup-1.6.3.rar HTML解析器

    jsoup是Java开发者的一款利器,它是一个高效且功能丰富的HTML解析库。这个工具能够帮助开发者轻松地处理网页内容,提取有用的数据,并进行相应的操作。jsoup的核心特性在于它的易用性和灵活性,使得即便是不熟悉DOM...

    jsoup 解析html

    **JSoup:HTML解析神器** JSoup是一款Java库,它为了解析、提取以及操作HTML文档而设计。这个强大的工具提供了简单易用的API,使得开发者可以方便地处理网页内容,就如同处理DOM(文档对象模型)一样。在本文中,...

    jsoup-1.10.3

    **jsoup-1.10.3:网页解析与数据提取的利器** Jsoup是一款强大的Java库,专门用于处理和解析HTML文档。它的版本号"1.10.3"表明这是一个稳定且经过多轮优化的版本,为开发者提供了高效、易用的API来抓取和操作网页...

    一个用jsoup框架解析html的项目

    **JSoup:HTML解析利器** JSoup是一款Java库,它为了解析、提取以及操作HTML文档而设计。这个项目的核心目标是提供一种简单且有效的方式来处理网页内容,就像DOM(文档对象模型)在浏览器中工作的方式一样。JSoup...

    jsoup-1.6.1

    总的来说,`jsoup-1.6.1`是Java开发中处理HTML的利器,它集成了解析、选择、修改、安全清理等多种功能,简化了HTML操作的复杂性。无论你是做Web爬虫、数据提取还是前端开发,jsoup都是一个值得信赖的工具。如果你...

    jsoup-1.11.3

    **jsoup-1.11.3:网页解析与数据提取的利器** `jsoup` 是一个非常流行的Java库,用于处理和解析HTML文档。它提供了简单易用的API,使得开发者可以方便地抓取、操作和清理HTML内容。版本1.11.3是这个库的一个稳定...

    Jsoup-1.72极网络爬虫需要包

    **Jsoup-1.72:网络爬虫的利器** Jsoup是一款强大的Java库,它设计用于处理实际世界中的HTML,使开发者能够方便地提取和操作数据。在标题提到的"Jsoup-1.72极网络爬虫需要包"中,Jsoup是主要组件,版本号1.72代表了...

    jsoup-1.7.2.jar

    jsoup最新官方jar包,java解析动静态html利器。

    jsoup的三个必备jar包

    **jsoup:网页抓取与解析利器** jsoup是一个Java库,专为处理真实世界的HTML而设计。它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。在网页抓取和解析领域,jsoup是开发者们的...

    jsoup操作手册 API

    #### jsoup:Java的HTML解析利器 **jsoup**是一款用于Java的HTML解析库,它的出现极大地简化了Java程序在处理HTML文档时的复杂度。与传统的HTML解析库如htmlparser相比,jsoup以其强大的功能、易用性和活跃的更新...

    jsoup网页内容分析

    1. **HTML解析**:JSoup能够解析HTML文档,将其转化为一个DOM树结构,类似于浏览器对网页的处理方式。这使得开发者可以像操作DOM一样,通过选择器来定位和提取所需元素。 2. **选择器支持**:JSoup支持CSS选择器,...

    jsoup1.11.2

    **jsoup 1.11.2:网页解析利器** `jsoup` 是一个非常流行的Java库,专门用于处理和解析HTML文档。它的版本1.11.2为我们提供了高效且可靠的工具,使得开发者能够轻松地从网页中提取数据、修正结构化内容以及执行DOM...

    jsoup源码与文档

    **jsoup:HTML解析利器** jsoup是一款Java库,它为了解析、提取以及操作HTML而设计,提供了简单易用的API。这个工具包包含了jsoup的三个关键组成部分:javadoc(API文档)、sources(源代码)和jar(编译后的类库)...

    解析网页利器组合(正则、jsoup、beanshell、dozer)资源

    综合以上工具,我们可以构建一个高效的网页解析流程:首先使用正则表达式进行初步的文本匹配,然后利用Jsoup解析HTML并提取目标元素,接着借助BeanShell进行复杂逻辑判断和数据处理,最后通过Dozer将处理后的数据...

    jsoup1.10_jsoupjar包网页_

    **jsoup:网页爬虫与HTML解析库** jsoup是一个非常强大的Java库,它使得处理HTML变得简单且直观。在标题“jsoup1.10_jsoup.jar包网页”中,"jsoup1.10"指的是jsoup库的一个特定版本,即1.10版。这个版本的jsoup提供...

    jsoup.jar包

    1. **HTML解析**:jsoup支持将HTML字符串解析成一个复杂的Document对象,这个对象遵循DOM(Document Object Model)模型,使得开发者可以像操作XML一样对HTML进行查询和修改。 2. **CSS选择器**:jsoup提供了与...

    java爬虫jsoup包

    1. **HTML解析**:Jsoup能够解析整个HTML页面或者单独的HTML字符串。例如,使用`Jsoup.connect(url).get()`可以连接到指定URL并获取HTML内容,然后用`Jsoup.parse(html)`解析HTML字符串。 2. **DOM操作**:如同XML ...

    jSoup1.8.1jar包

    1. **HTML解析**:jsoup能够解析HTML文档,并创建一个DOM(文档对象模型)结构,这个结构与浏览器内部处理HTML的方式相同。通过DOM,开发者可以方便地访问和操作页面元素。 2. **选择器API**:jsoup支持CSS选择器,...

    jsoup 实现浏览器网页另存为

    **JSoup:网页抓取与解析利器** JSoup是一个用于处理实际世界HTML的Java库。它提供了非常方便的API,用于提取和操作数据,使用DOM,CSS和jQuery-like方法。在本文中,我们将深入探讨如何使用JSoup实现浏览器的...

Global site tag (gtag.js) - Google Analytics