`
zhaohuafei
  • 浏览: 28268 次
文章分类
社区版块
存档分类
最新评论

用Jsoup做“爬虫”

 
阅读更多

Jsoup是一个开源的解析html的类库,非常好用,亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的:

1.抓取网站的导航页面,将导航链接解析出来存好。

2.顺着导航链接获取导航分类的页面数。

3.抓取分类页面并解析具体文章链接。

4.抓取具体文章页面并解析内容。

这样要求目标站点结构清晰,分类明确。

下面是一个简单示例:

package cn.zhf.test;

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class FetchTest {

	public static void main(String[] args) {
		getUrl();

	}

	public static void getUrl(){
		Connection conn = Jsoup.connect("http://mianshibaike.com/data/sitemap.html").timeout(10000);
		try {
			Document doc = conn.get();
			String html = doc.html();
			Elements element = doc.getElementsByAttribute("href");
			int i=0;
			for(Element ele: element){
				System.out.println(ele.absUrl("href"));
				i++;
			}
			System.out.println(i);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

}


分享到:
评论

相关推荐

    Android_Jsoup网页爬虫案例

    本文将详细介绍如何在Android环境中使用Jsoup进行网页爬虫的实践。 首先,我们需要在Android项目中添加Jsoup依赖。在`build.gradle(Module)`文件中添加以下依赖: ```groovy dependencies { implementation 'org....

    jsoup网页爬虫小案例

    在这个案例中,我们将探讨如何使用Java的Jsoup库来实现一个简单的网页爬虫。Jsoup是一个强大的库,专为处理真实世界的HTML而设计,它提供了非常方便的方法来解析、查找和修改HTML文档。这个案例主要针对初级到中级的...

    jsoup爬虫实战

    使用jsoup进行爬虫并获取模板网页具体数据,获取总页数进行自动翻页处理。

    java+idea+jsoup 爬虫

    Java + IntelliJ IDEA + Jsoup 爬虫是一个高效且便捷的网页抓取解决方案。Jsoup 是一个用于处理实际世界HTML的Java库,它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。在这个项目...

    Jsoup 网络爬虫(动态ip代理,突破ip访问次数限制) 爬取全国各省市区数据

    在“Jsoup网络爬虫(动态ip代理,突破ip访问次数限制)爬取全国各省市区数据”这个项目中,我们将会深入探讨如何使用Jsoup进行网络爬虫开发,并且解决在爬虫过程中遇到的IP访问限制问题。 首先,我们需要理解Jsoup...

    Jsoup网络爬虫项目

    使用jsoup做的网络爬虫项目,爬取红袖小说网的部分书籍封面图,将图片下载到项目根目录的img文件夹中,并使用DButils将图片的url存入MySQL数据库 开发环境:Eclipse 数据库版本:MySQL 8.0

    spring boot+java +jsoup+ 爬虫

    Spring Boot + Java + Jsoup 爬虫是一个常见的技术组合,用于构建高效、简洁的网络爬虫项目。本文将深入探讨这些技术如何协同工作,以及如何利用它们来抓取和处理网页上的图片资源。 首先,Spring Boot 是一个由...

    jsoup爬虫学习之爬取博客(包含jsoup jar包)

    在"jsoup爬虫学习源代码"中,你可能已经看到了如何构建一个基本的爬虫项目。通常,一个简单的`jsoup`爬虫会包括以下几个步骤: 1. **连接网页**:使用`Jsoup.connect(url).get()`方法连接到指定的网页,并获取HTML...

    Jsoup-网络爬虫项目

    **Jsoup网络爬虫项目详解** ...总结,基于Jsoup的网络爬虫项目为初学者提供了一个直观的学习平台,通过实践这个项目,你可以深入理解网络爬虫的工作原理,熟悉Jsoup库的使用,为后续的数据分析和Web开发打下坚实基础。

    SpringBoot+jsoup爬虫

    **SpringBoot+Jsoup爬虫详解** 在现代Web开发中,数据抓取(或称爬虫)是一项重要的技能,尤其对于数据分析、市场研究和自动化任务。SpringBoot与Jsoup的结合提供了一个高效、灵活的解决方案来实现这个目标。本文将...

    Android+jsoup Java爬虫做的一个 阅读app。(有源代码,随手写的 可能代码有点乱)

    在本项目中,开发者使用了Android技术和Jsoup库来创建了一个简单的阅读应用程序。这个应用的主要功能是抓取网络上的信息,展示给用户阅读。以下是关于Android、Jsoup和爬虫的相关知识点: 1. **Android**: Android...

    jsoup java爬虫 糗事 搞笑图片 百科

    总的来说,这个项目涉及了使用jsoup进行网页抓取,结合Java爬虫技术从指定的网页抓取搞笑图片,并通过maven管理依赖。通过解析"qiubai"文件,可以深入挖掘和分析其中的内容,实现自定义的数据处理和展示。

    jsoup网络爬虫

    在实际项目中,使用jsoup进行网络爬虫开发时,需要注意遵守网站的robots.txt协议,尊重网站的爬虫政策,避免对服务器造成过大的负担。此外,处理异常和错误是必不可少的,例如网络连接问题、解析错误等。 最后,`...

    基于jsoup的SpringBoot爬虫demo

    在现代互联网环境中,数据抓取是获取大量信息的重要手段,而SpringBoot作为Java领域广泛使用的轻量级框架,结合jsoup库,可以构建高效、灵活的网络爬虫应用。这个"基于jsoup的SpringBoot爬虫demo"项目旨在展示如何...

    JsoupXpath jsoup升级版 java爬虫工具

    JsoupXpath jsoup的升级版 ,支持jsoup的同时还支持原生xpath语法,让你的爬虫更得心应手,无所不爬!

    java-Jsoup爬虫完整代码

    java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.

    jsoup实现网络爬虫

    本篇将详细介绍如何使用JSoup在Java中实现一个简单的网络爬虫,以及爬取豆瓣电影数据的具体步骤。 ### 一、JSoup简介 JSoup是一个用于处理实际世界HTML的Java库。它提供了一种方便、快速的方法来解析HTML文档,...

    httpclient + jsoup java爬虫DEMO

    java爬虫,代码写的有点丑,反正是能用。 今天给大家分享一个多线程的知识点,和线程池,最近任务是写爬虫,五百个网址,循环很慢,然后考虑用多线程,今天看了一下多线程,氛围继承thread 和实现runnuble接口,...

    基于jsoup实现爬虫和IKAnalyzer分词器

    **基于jsoup实现爬虫** jsoup是一款Java库,它提供了非常方便的API,用于处理实际世界中的HTML。它的核心功能包括抓取网页、解析HTML以及提取和操作数据。jsoup模仿了DOM API,但设计得更加简洁和高效。在这个项目...

    java httpclient jsoup爬虫

    初级爬虫

Global site tag (gtag.js) - Google Analytics