Jsoup是一个开源的解析html的类库,非常好用,亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的:
1.抓取网站的导航页面,将导航链接解析出来存好。
2.顺着导航链接获取导航分类的页面数。
3.抓取分类页面并解析具体文章链接。
4.抓取具体文章页面并解析内容。
这样要求目标站点结构清晰,分类明确。
下面是一个简单示例:
package cn.zhf.test;
import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class FetchTest {
public static void main(String[] args) {
getUrl();
}
public static void getUrl(){
Connection conn = Jsoup.connect("http://mianshibaike.com/data/sitemap.html").timeout(10000);
try {
Document doc = conn.get();
String html = doc.html();
Elements element = doc.getElementsByAttribute("href");
int i=0;
for(Element ele: element){
System.out.println(ele.absUrl("href"));
i++;
}
System.out.println(i);
} catch (IOException e) {
e.printStackTrace();
}
}
}
分享到:
相关推荐
本文将详细介绍如何在Android环境中使用Jsoup进行网页爬虫的实践。 首先,我们需要在Android项目中添加Jsoup依赖。在`build.gradle(Module)`文件中添加以下依赖: ```groovy dependencies { implementation 'org....
在这个案例中,我们将探讨如何使用Java的Jsoup库来实现一个简单的网页爬虫。Jsoup是一个强大的库,专为处理真实世界的HTML而设计,它提供了非常方便的方法来解析、查找和修改HTML文档。这个案例主要针对初级到中级的...
使用jsoup进行爬虫并获取模板网页具体数据,获取总页数进行自动翻页处理。
Java + IntelliJ IDEA + Jsoup 爬虫是一个高效且便捷的网页抓取解决方案。Jsoup 是一个用于处理实际世界HTML的Java库,它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。在这个项目...
在“Jsoup网络爬虫(动态ip代理,突破ip访问次数限制)爬取全国各省市区数据”这个项目中,我们将会深入探讨如何使用Jsoup进行网络爬虫开发,并且解决在爬虫过程中遇到的IP访问限制问题。 首先,我们需要理解Jsoup...
使用jsoup做的网络爬虫项目,爬取红袖小说网的部分书籍封面图,将图片下载到项目根目录的img文件夹中,并使用DButils将图片的url存入MySQL数据库 开发环境:Eclipse 数据库版本:MySQL 8.0
Spring Boot + Java + Jsoup 爬虫是一个常见的技术组合,用于构建高效、简洁的网络爬虫项目。本文将深入探讨这些技术如何协同工作,以及如何利用它们来抓取和处理网页上的图片资源。 首先,Spring Boot 是一个由...
在"jsoup爬虫学习源代码"中,你可能已经看到了如何构建一个基本的爬虫项目。通常,一个简单的`jsoup`爬虫会包括以下几个步骤: 1. **连接网页**:使用`Jsoup.connect(url).get()`方法连接到指定的网页,并获取HTML...
**Jsoup网络爬虫项目详解** ...总结,基于Jsoup的网络爬虫项目为初学者提供了一个直观的学习平台,通过实践这个项目,你可以深入理解网络爬虫的工作原理,熟悉Jsoup库的使用,为后续的数据分析和Web开发打下坚实基础。
**SpringBoot+Jsoup爬虫详解** 在现代Web开发中,数据抓取(或称爬虫)是一项重要的技能,尤其对于数据分析、市场研究和自动化任务。SpringBoot与Jsoup的结合提供了一个高效、灵活的解决方案来实现这个目标。本文将...
在本项目中,开发者使用了Android技术和Jsoup库来创建了一个简单的阅读应用程序。这个应用的主要功能是抓取网络上的信息,展示给用户阅读。以下是关于Android、Jsoup和爬虫的相关知识点: 1. **Android**: Android...
总的来说,这个项目涉及了使用jsoup进行网页抓取,结合Java爬虫技术从指定的网页抓取搞笑图片,并通过maven管理依赖。通过解析"qiubai"文件,可以深入挖掘和分析其中的内容,实现自定义的数据处理和展示。
在实际项目中,使用jsoup进行网络爬虫开发时,需要注意遵守网站的robots.txt协议,尊重网站的爬虫政策,避免对服务器造成过大的负担。此外,处理异常和错误是必不可少的,例如网络连接问题、解析错误等。 最后,`...
在现代互联网环境中,数据抓取是获取大量信息的重要手段,而SpringBoot作为Java领域广泛使用的轻量级框架,结合jsoup库,可以构建高效、灵活的网络爬虫应用。这个"基于jsoup的SpringBoot爬虫demo"项目旨在展示如何...
JsoupXpath jsoup的升级版 ,支持jsoup的同时还支持原生xpath语法,让你的爬虫更得心应手,无所不爬!
java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.
本篇将详细介绍如何使用JSoup在Java中实现一个简单的网络爬虫,以及爬取豆瓣电影数据的具体步骤。 ### 一、JSoup简介 JSoup是一个用于处理实际世界HTML的Java库。它提供了一种方便、快速的方法来解析HTML文档,...
java爬虫,代码写的有点丑,反正是能用。 今天给大家分享一个多线程的知识点,和线程池,最近任务是写爬虫,五百个网址,循环很慢,然后考虑用多线程,今天看了一下多线程,氛围继承thread 和实现runnuble接口,...
**基于jsoup实现爬虫** jsoup是一款Java库,它提供了非常方便的API,用于处理实际世界中的HTML。它的核心功能包括抓取网页、解析HTML以及提取和操作数据。jsoup模仿了DOM API,但设计得更加简洁和高效。在这个项目...
初级爬虫