`
libohan.life
  • 浏览: 3408 次
社区版块
存档分类
最新评论

WebCollector学习笔记(二)jsoup的小记

阅读更多

一、jsoup

抽取信息的时候用到了jsoup。下面简单记录下jsoup的使用心得

http://www.open-open.com/jsoup/selector-syntax.htm

1.1 jsoup选择器

标签指定id

 <div class="list_left">  
<div id="content">
正文部分正文部分正文部分正文部分
</div>  
</div>  

 方法为:

 

Elements eContent = doucument.select("div.list_left").select("div#content");		
String content = eContent.text();
抽取的class属性有空格存在

 

例如想抽取:

<div class="list_left">
       <div class="clist sborder" >
新闻列表新闻列表新闻列表新闻列表新闻列表新闻列表
</div>
</div>
则可以通过将空格处拆分成两个select的方式进行,这里参考了这篇博文:http://blog.csdn.net/qew110123/article/details/52795204
具体的实现代码就变成了:
Elements pageHaveClass = page.select("div.list_left").select(".clist").select(".sborder");
0
0
分享到:
评论

相关推荐

    jsoup-1.15.3.jar

    jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jar,jsoup-1.15.3.jarjsoup-...

    jsoup爬虫学习之爬取博客(包含jsoup jar包)

    通过学习如何使用`jsoup`爬虫,我们可以从各种博客和其他网站获取有价值的信息,例如文章内容、作者信息、评论等。 首先,让我们理解`jsoup`的基本概念。`jsoup`设计灵感来源于jQuery,因此它的API对于熟悉...

    JsoupAPI(jsoup帮助文档)

    **Jsoup API 深入解析** Jsoup 是一个用于处理和解析HTML的Java库,它提供了强大的功能,使得在Java程序中操作HTML文档变得简单而直观。在Jsoup 1.10.2版本中,这个API进一步优化了对HTML的处理能力,提供了丰富的...

    jsoup开发例子学习使用

    **jsoup开发例子学习使用** jsoup是一款Java库,它为HTML解析和提取提供了非常方便的API。在处理网页内容时,jsoup扮演了至关重要的角色,尤其在数据抓取、网页解析和信息提取方面。这个例子将带你深入了解jsoup的...

    Jsoup库文件;Jsoup解析Java包

    Jsoup是一款强大的Java库,专为处理...通过学习和掌握Jsoup库,开发者可以有效地处理HTML和XML文档,提高开发效率,简化复杂的数据提取任务。无论是进行网页爬虫开发,还是处理网页内容,Jsoup都是一个不可多得的工具。

    Jsoup 1.5.2 和jsoup 1.6

    Jsoup在Web抓取、数据分析和网页爬虫项目中广泛应用。本文将深入探讨Jsoup 1.5.2和1.6这两个版本的主要特性、变化以及如何在项目中使用它们。 首先,让我们了解Jsoup的基本功能。Jsoup的核心功能包括: 1. **HTML...

    Jsoup.jar 包及说明文档

    **二、Jsoup的使用** 1. **引入Jsoup**:在Java项目中,可以通过Maven或Gradle等构建工具引入Jsoup的依赖,如: ```xml &lt;groupId&gt;org.jsoup &lt;artifactId&gt;jsoup &lt;version&gt;1.10.2 ``` 2. **连接与解析**:...

    jsoup中文帮助文档

    Jsoup 提供 DOM 风格的方法(如 `getElementById()`, `getElementsByTag()`, `select(String cssQuery)` 等)来遍历 Document 对象并抽取所需数据。例如,你可以通过 CSS 选择器选取元素,然后提取它们的属性、文本...

    jsoup1.10.3包和jsoupApi帮助文档

    **jsoup1.10.3包和jsoupApi帮助文档** Jsoup是一个非常流行的Java库,用于处理和解析HTML。在IT行业中,特别是在Web爬虫和数据抓取领域,...学习和掌握jsoup的使用,对于提升Web开发技能和提高工作效率具有显著效果。

    jsoup-1.11.3.jar

    `jsoup-1.11.3-javadoc.jar`包含了该版本的API文档,方便开发者查阅和理解每个方法的功能和用法,而`jsoup-1.11.3-sources.jar`则包含源代码,对于学习和调试Jsoup的内部实现非常有帮助。 Jsoup 的核心功能主要包括...

    Jsoup

    Jsoup的核心功能包括: 1. HTML解析:Jsoup能够解析各种各样的HTML源码,无论是干净的结构化HTML还是充满乱七八糟标签的真实网页。它能处理HTML5和HTML4,甚至一些常见的错误格式也能被正确解析。 2. DOM操作:...

    jsoup-jsoup-1.6.1.zip

    在jsoup 1.6.1版本中,我们可以看到这个库已经相当成熟,提供了丰富的功能和优化。以下是一些关于jsoup的关键知识点: 1. **HTML解析**:jsoup的核心能力在于它强大的HTML解析机制。它使用了名为"Jsoup Parser"的...

    jsoup-1.14.3-API文档-中文版.zip

    赠送jar包:jsoup-1.14.3.jar; 赠送原API文档:jsoup-1.14.3-javadoc.jar; 赠送源代码:jsoup-1.14.3-sources.jar; 赠送Maven依赖信息文件:jsoup-1.14.3.pom; 包含翻译后的API文档:jsoup-1.14.3-javadoc-API...

    org.jsoup.jar

    标题中的"org.jsoup.jar"是Jsoup库的核心组件,它是Jsoup项目的二进制发布形式,包含了所有用于解析、操作和提取HTML数据的类和方法。在实际开发中,我们通常会将这个jar文件加入到项目依赖中,以便能够使用Jsoup...

    Jsoup工具jar包

    - **jsoup-1.6.1-javadoc.jar**:这是Jsoup的API文档jar包,包含了1.6.1版本的Jsoup的详细Javadoc,开发者可以通过查阅这个jar包中的文档了解每个类和方法的用法、参数及返回值等信息,是学习和使用Jsoup的重要参考...

    jsoup-annotations是Jsoup注解的POJO

    **JSoup库与JSoup-Annotations** JSoup是一款强大的Java库,专为处理HTML文档而设计,它提供了方便的API,使得抓取和解析HTML变得简单易行。JSoup能够模拟浏览器的行为,理解和构建DOM树,进而允许开发者通过CSS...

    Jsoup源码以及chm文件

    这个压缩包包含的“Jsoup源码”意味着你可以深入理解其内部工作机制,这对于开发者进行二次开发或者学习网络爬虫技术非常有帮助。而“chm文件”通常是一种Windows平台下的帮助文档格式,它可能包含了Jsoup的官方文档...

    使用jsoup获取网页内容并修改

    **使用Jsoup获取网页内容并修改** ...通过学习和熟练掌握Jsoup,你可以高效地实现网页内容的获取与修改,为你的应用增添更多的功能和价值。同时,要注意在实际使用中兼顾性能和安全性,确保用户体验和数据的完整性。

    WebCollector最新稳定版(含jar包、源码、JavaAPI)

    WebCollector可能使用了诸如Jsoup这样的库来解析HTML,也可能使用了如Apache HttpClient或者OkHttp来处理HTTP请求。在实际操作中,开发者需要根据需求配置爬虫规则,指定起始URL、设置爬取深度、定义提取规则等。 ...

    jsoup的jar包

    由于其简洁易用的API设计,jsoup深受开发者喜爱,尤其是那些需要从网页中抓取信息或者进行Web抓取任务的开发者。下面我们将深入探讨jsoup的核心功能和使用方法。 首先,jsoup能够方便地连接到指定的URL,并下载HTML...

Global site tag (gtag.js) - Google Analytics