用Jsoup做“爬虫” - 不忘初心,方能远行。 - ITeye博客

`

zhaohuafei

浏览: 28268 次

最近访客更多访客>>

beijishiqidu

123和煦

dpcc

ljjr13

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (73)

社区版块

存档分类

2014-04 ( 15)
2014-03 ( 34)
2014-02 ( 20)
更多存档...

最新评论

用Jsoup做“爬虫”

阅读更多

Jsoup是一个开源的解析html的类库，非常好用，亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的：

1.抓取网站的导航页面，将导航链接解析出来存好。

2.顺着导航链接获取导航分类的页面数。

3.抓取分类页面并解析具体文章链接。

4.抓取具体文章页面并解析内容。

这样要求目标站点结构清晰，分类明确。

下面是一个简单示例：

package cn.zhf.test;

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class FetchTest {

	public static void main(String[] args) {
		getUrl();

	}

	public static void getUrl(){
		Connection conn = Jsoup.connect("http://mianshibaike.com/data/sitemap.html").timeout(10000);
		try {
			Document doc = conn.get();
			String html = doc.html();
			Elements element = doc.getElementsByAttribute("href");
			int i=0;
			for(Element ele: element){
				System.out.println(ele.absUrl("href"));
				i++;
			}
			System.out.println(i);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

}

分享到：

Lucene使用之构建索引、查询 | 汉诺塔问题的递归实现

2014-03-10 10:50
浏览 301
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Android_Jsoup网页爬虫案例: 本文将详细介绍如何在Android环境中使用Jsoup进行网页爬虫的实践。首先，我们需要在Android项目中添加Jsoup依赖。在`build.gradle(Module)`文件中添加以下依赖： ```groovy dependencies { implementation 'org....

jsoup网页爬虫小案例: 在这个案例中，我们将探讨如何使用Java的Jsoup库来实现一个简单的网页爬虫。Jsoup是一个强大的库，专为处理真实世界的HTML而设计，它提供了非常方便的方法来解析、查找和修改HTML文档。这个案例主要针对初级到中级的...

jsoup爬虫实战: 使用jsoup进行爬虫并获取模板网页具体数据，获取总页数进行自动翻页处理。

java+idea+jsoup 爬虫: Java + IntelliJ IDEA + Jsoup 爬虫是一个高效且便捷的网页抓取解决方案。Jsoup 是一个用于处理实际世界HTML的Java库，它提供了非常方便的API，用于提取和操作数据，使用DOM、CSS以及类似于jQuery的方法。在这个项目...

Jsoup 网络爬虫（动态ip代理，突破ip访问次数限制）爬取全国各省市区数据: 在“Jsoup网络爬虫（动态ip代理，突破ip访问次数限制）爬取全国各省市区数据”这个项目中，我们将会深入探讨如何使用Jsoup进行网络爬虫开发，并且解决在爬虫过程中遇到的IP访问限制问题。首先，我们需要理解Jsoup...

Jsoup网络爬虫项目: 使用jsoup做的网络爬虫项目，爬取红袖小说网的部分书籍封面图，将图片下载到项目根目录的img文件夹中，并使用DButils将图片的url存入MySQL数据库开发环境：Eclipse 数据库版本：MySQL 8.0

spring boot+java +jsoup+ 爬虫: Spring Boot + Java + Jsoup 爬虫是一个常见的技术组合，用于构建高效、简洁的网络爬虫项目。本文将深入探讨这些技术如何协同工作，以及如何利用它们来抓取和处理网页上的图片资源。首先，Spring Boot 是一个由...

jsoup爬虫学习之爬取博客（包含jsoup jar包）: 在"jsoup爬虫学习源代码"中，你可能已经看到了如何构建一个基本的爬虫项目。通常，一个简单的`jsoup`爬虫会包括以下几个步骤： 1. **连接网页**：使用`Jsoup.connect(url).get()`方法连接到指定的网页，并获取HTML...

Jsoup-网络爬虫项目: **Jsoup网络爬虫项目详解** ...总结，基于Jsoup的网络爬虫项目为初学者提供了一个直观的学习平台，通过实践这个项目，你可以深入理解网络爬虫的工作原理，熟悉Jsoup库的使用，为后续的数据分析和Web开发打下坚实基础。

SpringBoot+jsoup爬虫: **SpringBoot+Jsoup爬虫详解** 在现代Web开发中，数据抓取（或称爬虫）是一项重要的技能，尤其对于数据分析、市场研究和自动化任务。SpringBoot与Jsoup的结合提供了一个高效、灵活的解决方案来实现这个目标。本文将...

Android+jsoup Java爬虫做的一个阅读app。（有源代码，随手写的可能代码有点乱）: 在本项目中，开发者使用了Android技术和Jsoup库来创建了一个简单的阅读应用程序。这个应用的主要功能是抓取网络上的信息，展示给用户阅读。以下是关于Android、Jsoup和爬虫的相关知识点： 1. **Android**: Android...

jsoup java爬虫糗事搞笑图片百科: 总的来说，这个项目涉及了使用jsoup进行网页抓取，结合Java爬虫技术从指定的网页抓取搞笑图片，并通过maven管理依赖。通过解析"qiubai"文件，可以深入挖掘和分析其中的内容，实现自定义的数据处理和展示。

jsoup网络爬虫: 在实际项目中，使用jsoup进行网络爬虫开发时，需要注意遵守网站的robots.txt协议，尊重网站的爬虫政策，避免对服务器造成过大的负担。此外，处理异常和错误是必不可少的，例如网络连接问题、解析错误等。最后，`...

基于jsoup的SpringBoot爬虫demo: 在现代互联网环境中，数据抓取是获取大量信息的重要手段，而SpringBoot作为Java领域广泛使用的轻量级框架，结合jsoup库，可以构建高效、灵活的网络爬虫应用。这个"基于jsoup的SpringBoot爬虫demo"项目旨在展示如何...

JsoupXpath jsoup升级版 java爬虫工具: JsoupXpath jsoup的升级版，支持jsoup的同时还支持原生xpath语法，让你的爬虫更得心应手，无所不爬！

java-Jsoup爬虫完整代码: java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.

jsoup实现网络爬虫: 本篇将详细介绍如何使用JSoup在Java中实现一个简单的网络爬虫，以及爬取豆瓣电影数据的具体步骤。 ### 一、JSoup简介 JSoup是一个用于处理实际世界HTML的Java库。它提供了一种方便、快速的方法来解析HTML文档，...

httpclient + jsoup java爬虫DEMO: java爬虫，代码写的有点丑，反正是能用。今天给大家分享一个多线程的知识点，和线程池，最近任务是写爬虫，五百个网址，循环很慢，然后考虑用多线程，今天看了一下多线程，氛围继承thread 和实现runnuble接口，...

基于jsoup实现爬虫和IKAnalyzer分词器: **基于jsoup实现爬虫** jsoup是一款Java库，它提供了非常方便的API，用于处理实际世界中的HTML。它的核心功能包括抓取网页、解析HTML以及提取和操作数据。jsoup模仿了DOM API，但设计得更加简洁和高效。在这个项目...

java httpclient jsoup爬虫: 初级爬虫

Global site tag (gtag.js) - Google Analytics