`

爬虫学习-------Jsoup简单方法测试

 
阅读更多
package com.ahuiby.main;

import java.io.IOException;


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Spider {
	
	public static void main (String[] args){
		try{
			Document document=Jsoup.connect("http://www.baidu.com/").get();
			//==========================================
			//直接抓取页面元素模块
			//==========================================
			//抓取文章title标签
			String title=document.title();
			//抓取文章text标签内容
			String text=document.text();
			//获取Html文件中的body元素
			Element body=document.body();
			//获取a标签
			Elements aArray=body.getElementsByTag("a");
			//类选择器
			Elements classArray=body.getElementsByClass("s_form");//此处为类名,截取的div的类名
			//获取属性
			Elements attributesArray=body.getElementsByAttribute("href");
			//获取子元素
			Elements children=body.children();
			//==========================================
			//选择器模块
			//==========================================
			Elements aSelect=document.select("a[href]");
			
			System.out.println("页面标题: "+title+"\n 页面内容: "+text+
					"\n body:\n"+ body);
			System.out.println("=================================================");
			
			System.out.println("所有a标签:\n"+aArray);
			System.out.println("=================================================");
			System.out.println("div:\n"+classArray);
			System.out.println("=================================================");
			System.out.println("href:\n"+attributesArray);
			System.out.println("=================================================");
			System.out.println("children:\n"+children);
			System.out.println("=================================================");
			System.out.println("aSelect:\n"+aSelect);
			
		}catch (IOException e){
			e.printStackTrace();
		}
		
	}

}

 

0
0
分享到:
评论

相关推荐

    jsoup-1.13.1.jar Java爬虫经典框架 抓取网页内容

    **jsoup:Java爬虫框架详解**...无论你是构建爬虫项目,还是进行Web自动化测试,甚至是进行数据迁移工作,jsoup都能提供强大的支持。通过学习和掌握jsoup,开发者可以更高效地处理HTML,从而提升项目的开发效率和质量。

    jsoup-1.8.1.jar

    在实际应用中,jsoup广泛用于网页爬虫、信息提取、数据清洗、自动化测试等多个领域。比如,你可以用它来抓取网站上的新闻标题、用户评论,或者从电商网站提取商品信息。此外,它也可以与Spring、Hibernate等其他Java...

    jsoup-1.8.3.zip

    JSoup常用于Web抓取、数据分析、爬虫开发、自动化测试等领域,它的易用性和灵活性使得它成为Java开发者处理HTML时的首选工具。 总的来说,“jsoup-1.8.3.zip”文件是一个完整的JSoup包,包含了运行、学习和理解这个...

    async-crawler-jsoup_2.10-1.0.0.zip

    开发者可以借此学习如何结合Jsoup和异步爬虫技术来构建自己的网络爬虫。在使用过程中,需要注意遵循网站的Robots协议,尊重网站的版权,避免对服务器造成过大的负担。 为了进一步了解这个项目,你需要解压`async-...

    Jsoup1.10.2.jar

    在实际开发中,Jsoup广泛应用于网页爬虫、数据抓取、自动化测试等领域。通过结合HTTP客户端库,如Apache HttpClient或OkHttp,可以构建完整的网页抓取解决方案。同时,由于其易用性和灵活性,Jsoup也常被用于简化...

    jsoup-1.8.1 lib包

    3. **数据分析**:对于需要从网页中提取大量结构化数据的项目,jsoup提供了一种高效的方法。 4. **自动化测试**:在Web应用的自动化测试中,jsoup可以帮助模拟用户行为,验证页面元素的存在和状态。 **使用示例:**...

    jsoup相关jar包

    开发者可以通过查看源代码来学习JSoup的工作原理,或者在遇到问题时进行调试。源代码有时也对优化性能或实现自定义功能有所帮助。 **JSoup主要功能** JSoup的主要功能包括: - **HTML解析**:它可以解析整个HTML...

    基于jsoup的SpringBoot爬虫demo

    这个"基于jsoup的SpringBoot爬虫demo"项目旨在展示如何整合这两者来实现一个简单的网页数据抓取服务。 **jsoup库详解** jsoup是一个用于处理实际世界HTML的Java库。它提供了非常方便的API,用于提取和操作数据,...

    jsoup.jar-1.8.1版本

    8. **API友好**:jsoup的API设计简洁明了,易于学习和使用,大大降低了开发者的学习成本和开发难度。 9. **社区支持**:jsoup拥有活跃的社区和详尽的文档,遇到问题时可以获得及时的帮助和解决方案。 在实际应用中...

    website-parser-with-jsoup

    **网站解析器与Jsoup详解** ...它提供了简单且强大的API,使得从HTML中提取结构化数据变得异常简便。在这个项目"website-parser-with-...此外,学习Jsoup的官方文档和相关教程,将有助于你更好地理解和使用这个工具。

    jsoup1.8.1抓取爬虫工具

    **jsoup1.8.1抓取爬虫工具** jsoup是Java领域中一款非常流行的HTML解析库,它主要用于处理实际世界中的HTML,提供了一种干净、简单的API来提取和操作数据。在版本1.8.1中,jsoup保持了其一贯的高效和易用性,使得...

    jsoup示例-爬取广西师大首页信息

    在本例中,可能有一个或多个测试类,它们调用爬虫方法并验证返回的结果是否符合预期。 总之,Jsoup是一个强大的工具,适用于简单的网页抓取和数据分析任务。通过这个示例,我们可以学习如何使用Jsoup连接到网页,...

    jsoup-zoom-example

    - **网页爬虫**:构建简单的爬虫,定期抓取和分析网页变化。 - **网页自动化**:自动化测试中,用于模拟用户操作,比如点击按钮、填写表单等。 - **内容过滤和清理**:清理HTML中的垃圾代码,确保数据的纯净。 总的...

    jsoupAPI解析html

    在Web开发中,经常需要从网页抓取数据,例如爬虫、数据提取或者自动化测试,这时就需要用到HTML解析工具。 **jsoup的核心概念** 1. **连接(Connection)**:jsoup通过`Jsoup.connect()`方法建立与目标网页的连接...

    itextpdf测试样例和jar jsoup使用说明

    以下是一个简单的Jsoup使用示例,用于获取网页的标题: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class JsoupExample { public static void main(String[] args) throws ...

    使用Jsoup解析html网页

    **Jsoup:HTML解析神器** Jsoup是一款Java库,它为了解析、提取以及操作HTML提供了强大的工具。在Web开发中,我们常常需要处理各种HTML文档,比如抓取网页...学习和掌握Jsoup的使用,将极大地提升你的Web开发效率。

    jsoup的jar

    jsoup的设计灵感来源于JavaScript库jQuery,因此,对于熟悉jQuery语法的开发者来说,jsoup的学习曲线相对平缓。 ### **核心功能** 1. **HTML解析**:jsoup能够将HTML字符串或URL转换为一个可操作的Document对象。...

    java爬虫简单实现

    在Java中,我们可以利用各种库来构建一个简单的爬虫,例如Jsoup、Apache HttpClient、WebMagic等。以下是对Java爬虫实现的一些关键知识点的详细说明: 1. **HTTP请求与响应**: - Java中的`HttpURLConnection`类...

    基于Java的源码-HTML解析器 jsoup.zip

    1. **网页爬虫**:jsoup常被用于编写网页爬虫程序,提取网页中的特定数据,如新闻标题、产品价格等。 2. **前端后端交互**:在前后端分离的项目中,jsoup可用于服务器端处理从客户端提交的HTML内容。 3. **数据...

Global site tag (gtag.js) - Google Analytics