`
jilong-liang
  • 浏览: 482720 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类

使用jsoup去解析历史在今天的html内容

阅读更多
package com.test;

import java.net.URL;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
*@Author:liangjilong
*@Date:2014-2-27
*@Version:1.0
*@Description:
*/
public class Test1 {

	public static void main(String[] args) throws Exception{
		
		String url="http://www.todayonhistory.com/";
		
		URL _url=new URL(url);
		Document doc=Jsoup.parse(_url, 3000);
		//从class=gong样式下面抓取
		Elements lists = doc.getElementsByAttributeValue("class", "gong");
		 
		for(Element e:lists){
			System.out.println(e.select("em").html()+e.select("i").html());
		}
	}
}

 

package com.test;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
*@Author:liangjilong
*@Date:2014-2-27
*@Version:1.0
*@Description:
*/
public class Test {

	/**
	 * @param args
	 */
	public static void main(String[] args) throws Exception {

		String url = "http://www.rijiben.com/";

		Document doc = Jsoup.connect(url).get();
		if (doc != null) {
			// 取出div的class="listren"的所有内容
			Elements listrens = doc.getElementsByAttributeValue("class", "listren");
			for (Element listren : listrens) {
				String text = listren.select("li").select("a").html();
				System.out.println(text);
			}
		} else {
			System.err.println("网络出异常!");
		}
	}
}

 

0
0
分享到:
评论

相关推荐

    jsoup和jtidy 对html操作,将不规范的html转换为xhtml

    1. 首先,使用jsoup解析HTML文档,它会自动修复一些基本的HTML错误。 2. 然后,如果需要进一步规范化,可以将jsoup处理后的结果传递给Jtidy,Jtidy将不规范的HTML转换为符合XHTML标准的文档。 3. 最后,根据需求,...

    jsoup-1.7.1 chm

    jsoup的1.7.1版本是其历史上的一个重要里程碑,它在功能稳定性和性能上都得到了广泛认可。 ### 解析HTML jsoup的核心功能在于HTML解析。它内置了一个基于Java的DOM解析器,可以将HTML文档转换为一个复杂的Document...

    Jsoup1.7.2

    Jsoup 是一个非常著名的Java库,专用于处理和解析HTML文档。版本1.7.2是这个库的一个历史版本,提供了对HTML数据提取和操纵的强大功能。Jsoup 的设计目标是使得开发者能够像在浏览器中操作DOM那样方便地处理HTML,...

    本工具可以帮你把原生http请求转换成Jsoup请求代码

    在爬虫编写过程中,开发者通常需要模拟浏览器的行为去发送HTTP请求获取网页内容,然后解析HTML以提取所需数据。使用这个工具,开发者可以快速将已知的HTTP请求转换为Jsoup的解析代码,从而专注于数据提取逻辑,而...

    agriculture_jsoup数据爬取示例_

    在这个“agriculture_jsoup数据爬取示例”中,我们将探讨如何利用Jsoup库来抓取猪易通网站上的数据并将其存储到本地数据库。 Jsoup是一个Java库,它提供了一个简单、方便的方式来解析HTML文档,提取和操作数据。它...

    基于springboot+mybatisplus+jsoup+mysql开发web小说网站

    Jsoup是一款Java库,用于解析HTML并提供方便的API,用于提取和操作数据。在Web小说网站中,Jsoup可能用于抓取网络上的小说资源,例如从其他网站爬取最新章节或热门书籍,然后存储到本地数据库,为用户提供更多阅读...

    抓取Wikipadia 数据

    Jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。Jsoup 提供了一套非常省力的 API,可通过 DOM、CSS 以及类似于 jQuery 的操作方法来取出和操作数据。Jsoup 只能解析制定 url 的 html ...

    dispatch-jsoup_2.11-0.8.10.zip

    `dispatch-jsoup`是一个基于Java的库,它扩展了Jsoup库的功能,用于更高效和灵活地处理HTML解析、抓取以及网络请求。Jsoup是一款非常流行的Java库,主要用于处理现实世界中的HTML,提供了一套方便的API来提取和操作...

    (Java)网络爬虫 by 夜猫.zip

    2. 解析HTML响应:收到服务器返回的HTML响应后,使用Jsoup解析HTML,构建DOM树。 3. 提取数据:根据需求,使用Jsoup的API选择和提取目标数据,如链接、标题、文章内容等。 4. 存储数据:将提取到的数据存储在本地...

    jsoup-1.8.1.jar

    在提取用户生成的HTML内容时,可以使用jsoup进行清洗,去除潜在的恶意脚本。 在**jsoup-1.8.1_1608408017** 这个文件中,可能是包含了jsoup 1.8.1版本的源码、文档、示例或者其他相关资源。日期1608408017可能是...

    simplewebscrapper:使用jsoup库的Java中的简单Web抓取工具

    通过使用"jsoup库",开发者可以有效地解析和导航HTML文档,抓取所需的信息。这通常涉及到网络请求、HTML解析、DOM遍历以及数据提取等步骤。 **标签解析:** 1. **java** - 指出项目是用Java语言编写的,适用于Java...

    基于JAVA获取招研网的学校和专业信息源代码

    - Jsoup解析HTML文档后,可以使用CSS选择器找到包含学校和专业信息的特定标签或类名。 - 例如,可能需要定位到含有学校名称的`<div>`标签,或者专业信息所在的`<span>`标签。 5. **异常处理**: - 网络请求可能...

    基于Java的实例源码-编写的HTML浏览器.zip

    在这个HTML浏览器项目中,很可能使用了Swing组件来构建浏览器的基本框架,如JFrame作为主窗口,JButton用于按钮交互,JLabel显示网页内容等。开发者可能使用了LayoutManager来布局组件,使得界面美观且适应不同屏幕...

    StockQuote:使用 HTML 解析检索股票报价信息

    2. **HTML解析**:使用Jsoup解析HTML,找到包含股票报价信息的元素。 3. **数据提取**:从解析后的HTML元素中提取数据,转化为Java对象,如StockQuote类,包含股票的各个属性。 4. **结果展示**:将提取的股票信息以...

    Java编写的HTML浏览器

    4. **HTML解析**:Java没有内置的HTML解析器,但可以使用开源库如Jsoup来解析HTML。Jsoup提供了一套简洁的API,能方便地提取和操作HTML元素,实现渲染网页。 5. **线程安全与异步加载**:为了提高用户体验,网页...

    java 程序设计网页浏览器

    5. **渲染HTML**:解析HTML后,需要将内容显示在GUI上。JavaFX提供了WebView组件,可以直接展示HTML内容。Swing没有内置的HTML渲染组件,可以使用第三方库如JWebPane(已废弃),或者利用JavaFX的嵌入功能在Swing...

    java百度收录查询源码

    总结来说,这个Java百度收录查询源码项目利用Jsoup解析HTML,JSTL处理动态展示,提供了一个便捷的工具来检查网页在百度搜索引擎的收录情况。开发者可以根据自己的需求进一步定制和扩展这个工具。

    笑话集网站最近更新网站内容采集java实现

    3. Selenium:如果网站使用JavaScript动态加载内容,那么Jsoup可能无法直接解析。这时,Selenium可以模拟浏览器行为,加载完整的网页内容,包括那些由JavaScript生成的部分。 对于“笑话集”,我们可以假设这些网站...

    自制浏览器

    虽然Java标准库没有内置的HTML解析器,但开发者可能会使用第三方库如Jsoup来解析和操作HTML文档。 历史记录功能则需要数据库或简单的文件存储来保存用户的浏览历史。可能使用的是Java的内置`java.util.Properties`...

    htmlparser1_6_20060610

    HTMLParser是Java编程语言中的一款...不过,现代的开发可能更倾向于使用如Jsoup这样的库,它提供了更为强大和现代的HTML解析功能。然而,了解HTMLParser的历史和工作原理,对于深入理解网页解析技术的发展是有益的。

Global site tag (gtag.js) - Google Analytics