`
joyocaowei
  • 浏览: 32491 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Jsoup的简单应用

阅读更多

昨天在网上百度看到一个提问:http://zhidao.baidu.com/question/423488719.html?fr=uc_push&push=ql&oldq=1(题目内容是用jsoup抓取这个网站的信息并输出Free一栏中排名上升度大于30的游戏名)

因为刚看了Jsoup,所以就拿过来做了一下,源代码如下(仅供参考,如果有什么不对的地方,欢迎指正)

 

 

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class PageParse {

	public static void main(String[] args) {
		String concreateURL = "http://www.appannie.com/top/iphone/united-states/games/";
		Connection c = Jsoup.connect(concreateURL);
		try {
			// 这里如果直接用c.get()是获取不到Document的,具体原因我说不上来
			// 跟踪信息是:java.io.IOException: 503 error loading URL
			// http://www.appannie.com/top/iphone/united-states/games/
			// 下面这种获取方式可以
			Document doc = c.data("query", "Java").userAgent("Chrome")
					.cookie("auth", "token").timeout(5000).post();
			// 很想只获取css为上升的域,但是完整的css加上去没有效果,就把这一列域全部获得了(需要改进,肯定有更好的方法)
			Elements eles = doc.select("td.top_free*");
			List<String> nameList = new ArrayList<String>();
			for (Element ele : eles) {
				String text = ele.select("span").first().text();
				if (text.length() > 1 && text.startsWith("▲")) {

					if (Integer.parseInt(text.substring(1)) > 30) {
						// 在这里.html()和.text()方法获得的内容是一样的
						System.out.println(ele.select("a").first().html());
						nameList.add(ele.select("a").first().text());
					}
				}
			}

		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

 

我运行时的结果是:

The Tribez

PipeRoll

Road Warrior Multiplayer Racing - by Top Free Apps and Games

The Oregon Trail: American Settler

Jewels of the Amazon

Zombie Band

Cleopatra's Pyramid

Monster Galaxy: The Zodiac Islands

 

代码中的nameList存放的是热度大于30的游戏名,在代码中我没有处理这个List,如果有人看到并会改正的话,欢迎指出,最好是给出一个解释,因为写这个也是糊里糊涂的。

 

参考资料:

 

2
0
分享到:
评论

相关推荐

    Jsoup爬虫简单案例

    在本文中,我们将深入探讨如何使用Jsoup进行简单的网页爬虫操作。 首先,Jsoup的主要功能包括HTML解析、DOM遍历以及选择器查询。通过解析HTML,我们可以获取到网页中的结构化信息,比如段落、标题、链接等。DOM遍历...

    jsoup简单封装

    **jsoup简单封装** 在提供的博客链接中,作者分享了一个简单的jsoup封装示例。通常,这样的封装会包含以下组件: 1. **连接设置**:封装类可能包含一个方法用于设置连接参数,如URL、超时时间等。 2. **HTML获取*...

    Java 爬虫jsoup简单的demo

    本篇文章将深入探讨如何使用Jsoup进行简单的网页抓取,并将抓取的数据写入Excel的多个工作表。 首先,我们要了解Jsoup的基本用法。Jsoup的核心功能在于解析HTML文档,通过其提供的选择器语法,我们可以像操作DOM...

    JsoupAPI(jsoup帮助文档)

    Jsoup 是一个用于处理和解析HTML的Java库,它提供了强大的功能,使得在Java程序中操作HTML文档变得简单而直观。在Jsoup 1.10.2版本中,这个API进一步优化了对HTML的处理能力,提供了丰富的类和方法来满足各种需求。 ...

    org.jsoup.jar

    2. **选择器语法**:Jsoup支持类似于CSS的选择器,使得定位HTML元素变得简单直观。例如,`doc.select("p")`将选取所有的段落元素。 3. **DOM操作**:如同操作DOM树一样,可以对Document对象进行增删改查操作,如...

    java jsoup应用爬取数据存储数据库及日志开关

    Java和Jsoup库在Web数据抓取中的应用广泛,它们为开发者提供了强大的工具来解析HTML文档,提取所需信息,并进一步处理这些数据。本教程将深入探讨如何使用Jsoup进行网页抓取,如何将抓取的数据存储到数据库中,以及...

    Jsoup

    Jsoup在实际开发中的应用广泛,如网页抓取、信息提取、自动化测试,甚至是构建简单的爬虫。它的易用性和灵活性使得它成为Java开发者处理HTML数据的首选工具之一。通过熟练掌握Jsoup,开发者可以高效地处理网络上的...

    java html解析 工具jsoup和一个简单例子

    在实际应用中,Jsoup广泛应用于数据抓取、网页爬虫、信息提取等领域。例如,你可以用它来抓取电商网站的商品信息,或者分析社交媒体上的帖子内容。 总的来说,Jsoup为Java开发者提供了一种高效、灵活且易于使用的...

    jsoup-1.7.1 chm

    jsoup广泛应用于各种项目,包括爬虫框架、内容管理系统、数据提取工具等。通过它,开发者可以高效地解析网页,提取所需信息,甚至进行页面结构的修改和重构。 ### 总结 jsoup-1.7.1.chm这个压缩包包含的是jsoup库...

    Jsoup库文件;Jsoup解析Java包

    使用Jsoup库文件,开发者可以快速地构建功能丰富的Java应用,实现高效的数据抓取和处理。在实际开发中,结合Java的IO流和多线程技术,可以进一步提升数据处理的速度和效率。 在压缩包"Jsoup库文件"中,可能包含以下...

    jsoup-jsoup-1.12.2.zip

    jsoup广泛应用于各种场景,包括: 1. **网页抓取**:通过jsoup,开发者可以构建简单的网页爬虫,获取网页上的数据。 2. **信息提取**:新闻聚合应用、电商价格监控等项目中,jsoup可以帮助提取关键信息。 3. **内容...

    jsoup的jar包

    下面我们将深入探讨jsoup的核心功能和主要应用。 **核心功能** 1. **HTML解析**:jsoup能够解析完整的HTML或XML文档,将其转化为DOM(Document Object Model)结构,与浏览器内部的工作方式类似。这样,开发者可以...

    jsoup-jsoup-1.6.1.zip

    3. **数据提取**:jsoup支持提取文本、属性值、链接、图片等HTML元素的数据,这对于网络爬虫或网页抓取应用非常有用。例如,可以轻松获取页面标题、段落内容、链接地址等信息。 4. **HTML清理**:jsoup具备HTML清理...

    jsoup-annotations是Jsoup注解的POJO

    JSoup是一款强大的Java库,专为处理HTML文档而设计,它提供了方便的API,使得抓取和解析HTML变得简单易行。JSoup能够模拟浏览器的行为,理解和构建DOM树,进而允许开发者通过CSS选择器来定位元素,进行查找、提取或...

    Jsoup工具jar包

    例如,新闻聚合应用可能会用Jsoup抓取各个网站的新闻标题和摘要;电商网站可能用它来抓取商品价格和评价信息。 5. **版本信息**:这里的版本号是1.6.1,可能较新版本有所落后。当前最新版的Jsoup可能增加了更多的...

    jsoup-1.8.3(含源码)

    Jsoup是一款非常强大的Java库,它专为处理HTML文档而设计,提供了丰富的API,使得从HTML中提取数据变得简单易行。Jsoup的核心功能包括解析HTML,提取数据,以及对HTML文档进行操作。在"jsoup-1.8.3(含源码)"这个...

    Jsoup1.10.2.jar

    3. **CSS选择器**:Jsoup集成了CSS选择器,使得可以通过简单的字符串表达式选取页面上的元素,如`doc.select("div.title")`就能选取所有class为"title"的div元素。 4. **类似jQuery的API**:Jsoup提供了类似于...

    jsoup-1.8.1.jar

    在实际应用中,jsoup广泛用于网页爬虫、信息提取、数据清洗、自动化测试等多个领域。比如,你可以用它来抓取网站上的新闻标题、用户评论,或者从电商网站提取商品信息。此外,它也可以与Spring、Hibernate等其他Java...

    使用jsoup获取网页内容并修改

    总结来说,Jsoup是一个强大的工具,它使得在Java和Android应用中解析和操作HTML变得简单易行。通过学习和熟练掌握Jsoup,你可以高效地实现网页内容的获取与修改,为你的应用增添更多的功能和价值。同时,要注意在...

Global site tag (gtag.js) - Google Analytics