`
ganliang13
  • 浏览: 252788 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于jsoup的网页爬虫

    博客分类:
  • java
阅读更多

前阵子做了个网页抓取工具,可扩展性较差,今天发现google 的一个开源网页抓取工具jsoup,写了个测试,与大家分享下

package com.gump.net.html.test;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
 *测试类
 *用jasoup进行html具体的网页解析例子
  @author ganliang13
  {@link http://ganliang13.iteye.com/}
 * */
public class test {
	public static void main(String[] args) throws IOException{
		long begin = System.currentTimeMillis();
		//整个html内容
		Document doc = Jsoup.connect("http://www.qzone.cc/Gexing/Qian/02/26263.html").timeout(30000).get(); // 设置连接超时时间 
		
		//打印html文档的<title>内容
		System.out.println(doc.getElementsByTag("title"));
        
		//打印html文档的<a>内容
		Elements aels = doc.getElementsByTag("a");
		
		for (Element el : aels) {
			System.out.println(el.toString());
		}
		
		long end = System.currentTimeMillis();
		System.out.println(end-begin);
	}
}

 

 

 

分享到:
评论

相关推荐

    基于jsoup实现爬虫和IKAnalyzer分词器

    **基于jsoup实现爬虫** jsoup是一款Java库,它提供了非常方便的API,用于处理实际世界中的HTML。它的核心功能包括抓取网页、解析HTML以及提取和操作数据。jsoup模仿了DOM API,但设计得更加简洁和高效。在这个项目...

    基于jsoup的java爬虫项目

    **基于jsoup的Java爬虫项目详解** 在Java开发领域,网页抓取和解析是常见的需求,用于数据挖掘、分析或者构建自动化工具。本项目基于Jsoup库,一个强大的Java库,专门设计用于处理HTML文档,提取和操作数据。本文将...

    基于jsoup的SpringBoot爬虫demo

    这个"基于jsoup的SpringBoot爬虫demo"项目旨在展示如何整合这两者来实现一个简单的网页数据抓取服务。 **jsoup库详解** jsoup是一个用于处理实际世界HTML的Java库。它提供了非常方便的API,用于提取和操作数据,...

    Java基于jsoup实现的爬虫技术

    Java基于Jsoup实现的爬虫技术是Web开发中一种常用的数据获取手段,它主要用于从HTML网页中提取结构化数据。Jsoup是一个强大的Java库,它提供了丰富的API来解析HTML,提取和操作数据,使得开发者可以方便地进行网页...

    Jsoup-网络爬虫项目

    这个项目是基于Jsoup来实现的网络爬虫,非常适合初学者进行网页数据抓取的学习和实践。 1. **Jsoup的基本概念** - Jsoup的主要目标是为了解析HTML文档,它能够处理HTML的不规范性,提供一种结构化的API来操作DOM树...

    spring boot+java +jsoup+ 爬虫

    总结起来,"Spring Boot + Java + Jsoup"的组合提供了一套强大的工具,用于开发功能完善的网络爬虫,尤其适合抓取和下载网页中的图片资源。通过合理的架构设计和代码实现,我们可以构建出一个高效、灵活且易于维护的...

    基于Jsoup实现的淘宝爬虫项目.zip

    【标题】"基于Jsoup实现的淘宝爬虫项目"是一个使用Java库Jsoup构建的网络爬虫项目,专为淘宝网站设计。Jsoup是一个用于处理实际世界HTML的Java库,它提供了非常方便的API用于提取和操作数据,遵循DOM、CSS以及jQuery...

    SpringBoot+jsoup爬虫

    **SpringBoot+Jsoup爬虫...总结,SpringBoot+Jsoup的组合为开发者提供了一个强大且易于上手的网页爬虫解决方案。通过合理的设计和编程,我们可以构建出高效、可靠的爬虫系统,实现从大量网页中自动提取有价值的信息。

    基于jsoup的入门爬虫系统,包括接口爬、定时爬、多线程爬.zip

    **基于jsoup的入门爬虫系统** jsoup是一款强大的Java库,专为处理真实世界的HTML而设计。它提供了非常方便的API,用于提取和操作数据,使用DOM、CSS以及类似于jQuery的方法。本入门爬虫系统就是利用jsoup来实现网页...

    Android+jsoup Java爬虫做的一个 阅读app。(有源代码,随手写的 可能代码有点乱)

    在这个项目中,Jsoup作为爬虫工具,帮助程序从指定的网页抓取数据,构建阅读内容。 5. **数据抓取**: 使用Jsoup进行数据抓取时,首先需要定位到目标元素,这通常通过CSS选择器完成。然后,可以使用Jsoup提供的API...

    java基于jsoup+mongodb的简单爬虫入门程序

    **Java基于Jsoup+MongoDB的简单爬虫入门程序** 在现代互联网环境中,数据的获取与分析变得至关重要,而爬虫技术就是实现这一目标的重要工具。本教程将介绍如何使用Java编程语言,结合Jsoup库进行网页抓取,并利用...

    Android实战——jsoup实现网络爬虫,糗事百科项目的起步

    在Android开发中,网络爬虫是一项...总的来说,通过jsoup,我们可以轻松地在Android应用中构建网络爬虫,获取网页数据并展示给用户。从糗事百科项目开始,你可以逐步扩展这个技术,应用到更多复杂的网络数据获取场景。

    爬虫实例(jsoup).zip

    【标题】"爬虫实例(jsoup).zip" 提供了一个基于jsoup的Java爬虫项目的实例,这旨在帮助初学者快速掌握网页抓取的基本技能。Jsoup是一个强大的库,专门用于解析HTML,使得处理网页数据变得更为简洁。在这个实例中,...

    4493mote,Jsoup爬虫,java爬虫,美女爬虫

    通过学习这个项目,我们可以深入理解如何在Java中构建一个高效的网页爬虫,掌握Jsoup的用法,以及如何处理网络爬虫可能遇到的各种问题。对于想要涉足网络爬虫领域的Java开发者来说,这是一个很好的学习资源。

    基于Jsoup的多线程java爬虫应用,爬取京东网商品信息并存入数据库。.zip

    综上所述,基于Jsoup的Java爬虫项目涉及到的技术点包括HTML解析、多线程编程、数据库操作、异常处理、数据清洗、分页处理以及遵守网络爬虫伦理。通过这样的项目实践,开发者可以提升网络爬虫开发技能,更好地理解...

    jsoup多线程爬虫

    **jsoup多线程爬虫** 是一个使用Java语言,基于jsoup库实现的网络爬虫项目。这个项目的核心目标是高效地抓取网页上的新闻内容,通过多线程技术来提升爬取效率。jsoup是一款强大的HTML解析库,它能够帮助开发者方便地...

    jsoup爬虫中文api

    Jsoup提供了一种简单有效的方法来清洗用户输入的内容,即使用基于白名单的清理器。 ```java String userHtml = "(\"XSS\");'&gt;Hello&lt;/div&gt;"; String safeHtml = Jsoup.clean(userHtml, Whitelist.basic()); ``` 在...

    基于Jsoup的 Android 网络爬虫,抓取海投网上的高校宣讲会信息。.zip

    【标题】"基于Jsoup的 Android 网络爬虫,抓取海投网上的高校宣讲会信息"是一个Android应用程序,它利用Jsoup库来抓取并解析网页数据,特别是海投网上关于高校宣讲会的相关信息。Jsoup是Java的一个开源库,专为处理...

Global site tag (gtag.js) - Google Analytics