- 浏览: 480361 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (288)
- Java (70)
- Web (11)
- JSP (18)
- JavaScript (25)
- JQuery (22)
- HTML (7)
- CSS (2)
- Struts2.X (6)
- Ibatis/Mybatis (6)
- Hibernate (4)
- Spring (8)
- Oracle (23)
- MySql (9)
- Apache (1)
- Tomcat (9)
- Weblogic (2)
- Maven (6)
- Flex (0)
- Junit (2)
- Test (1)
- SVN (6)
- GIS (3)
- Android (1)
- Eclipse (10)
- Thread (3)
- JVM (1)
- Cache (2)
- Design pattern (1)
- Nosql (3)
- Linux (10)
- Hudson/Jenkins (1)
- MQ (1)
- Network (2)
- 生活工作 (5)
- 架构师之路 (6)
- 知识精华荟萃 (9)
- Interview (13)
最新评论
-
276847139:
方法很有效,我的问题就在是在父项目的.classpa ...
手动添加Maven Dependencies -
coosummer:
推荐使用http://buttoncssgenerator.c ...
button css 样式 -
lqz2012:
DBFFileReader是外部框架里面的吧,不是JDK的。楼 ...
java读取dbf文件 -
xudongcsharp:
lx13345 写道java.lang.NoSuchMetho ...
Spring常用错误 -
lx13345:
jar是hibernate3.3GA,ehcache-1.5. ...
Spring常用错误
httpclient4:http://hc.apache.org/
jsoup:http://www.open-open.com/jsoup
小程序的母的是爬取天气查询页面上海当天的天气。
爬取的目标页面是http://www.weather.com.cn/weather/101020100.shtml。
程序爬取的结果:
2012-12-06白天 晴 高温 9℃ 西北风 3-4级 夜间 晴 低温 5℃ 南风 3-4级
jsoup:http://www.open-open.com/jsoup
小程序的母的是爬取天气查询页面上海当天的天气。
爬取的目标页面是http://www.weather.com.cn/weather/101020100.shtml。
程序爬取的结果:
2012-12-06白天 晴 高温 9℃ 西北风 3-4级 夜间 晴 低温 5℃ 南风 3-4级
public static String getHtml() { String html = ""; DefaultHttpClient httpclient = new DefaultHttpClient(); // 访问的目标站点,端口和协议 HttpHost targetHost = new HttpHost("www.weather.com.cn", 80, "http"); // 代理的设置 HttpHost proxy = new HttpHost("web-proxy.***.com", 8080); httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy); // 目标地址 HttpGet httpget = new HttpGet("/weather/101020100.shtml"); try { // 执行 HttpResponse response = httpclient.execute(targetHost, httpget); HttpEntity entity = response.getEntity(); if (entity != null) { html = EntityUtils.toString(entity); // System.out.println(html); } } catch (Exception e) { e.printStackTrace(); } finally { httpclient.getConnectionManager().shutdown(); } return html; }
@Test public void getWeather() throws IOException { /* * // 直接从字符串中输入 HTML 文档 String html = * "<html><head><title> 开源中国社区 </title></head>" + * "<body><p> 这里是 jsoup 项目的相关文章 </p></body></html>"; Document doc = * Jsoup.parse(html); * * // 从 URL 直接加载 HTML 文档 Document doc = * Jsoup.connect("http://www.oschina.net/").get(); String title = * doc.title(); * * Document doc = Jsoup.connect("http://www.oschina.net/") * .data("query", "Java") // 请求参数 .userAgent("I ’ m jsoup") // 设置 * User-Agent .cookie("auth", "token") // 设置 cookie .timeout(3000) // * 设置连接超时时间 .post(); // 使用 POST 方法访问 URL */ // 从文件中加载 HTML 文档 /* * File input = new File("C:/test.html"); Document doc = * Jsoup.parse(input,"UTF-8","http://www.oschina.net/"); */ /* * Document doc = Jsoup.connect("http://athp.hp.com/portal/site/athp/") * .get(); System.out.println("title:" + doc.title()); Elements els = * doc.getElementsByTag("a"); System.out.println("\n\n\n" + els + "\n"); * for (Element e : els) { System.out.println(e.nodeName() + ":\t" + * e.val()); } */ Document doc = Jsoup.parse(getHtml()); Elements contents = doc.select("div.weatherYubaoBox"); Elements trs = contents.get(0).getElementsByClass("yuBaoTable").get(0) .getElementsByTag("tr"); StringBuilder sb=new StringBuilder(); sb.append(new SimpleDateFormat("yyyy-MM-dd").format(new Date())); for (int i = 0; i < trs.size(); i++) { Element tr = trs.get(i); Elements tds = tr.getElementsByTag("td"); for (int j = 0; j < tds.size(); j++) { Element td = tds.get(j); if(i == 0 && j == 0){ continue; } if (i == 0 && j == 1) { sb.append(td.html()).append(" "); continue; } if (i == 1 && j == 0) { sb.append(td.html()).append(" "); continue; } sb.append(td.getElementsByTag("a").get(0).text()).append(" "); } } System.out.println(sb); }
- lib.rar (928.1 KB)
- 下载次数: 18
发表评论
-
常见eclipse环境编译问题小结
2015-07-08 21:46 705Preferences-Installed JRES-jdk ... -
URLEncode
2014-12-29 18:53 957前言: 根据HTTP协议要求,传递参数的值中如果存在特殊字符( ... -
java日期格式小时制区别
2014-12-29 18:29 756SimpleDateFormat ss = new Sim ... -
opencsv
2014-11-11 15:50 922public class CSVDemo { publ ... -
密码学-加密解密 加签验签
2014-08-21 21:37 8908RSA: 1. 加签:用私钥加 ... -
eclipse常用插件
2014-07-27 20:49 7071 velocity 模板编辑插件 实用 http://pro ... -
互联网开发
2014-04-29 19:17 21291.设计数据库时,有时候会根据业务,为了避免表中出现冗余的字 ... -
Servlet Listener
2014-03-26 17:35 1343Listener功能 它是基于观 ... -
数据库事务
2014-03-22 09:56 820数据库事务(Database Transa ... -
java 堆与栈
2014-03-21 16:54 742栈(stack):主要保存基本类型(或者叫内置类型)(char ... -
String、StringBuilder、StringBuffer区别
2014-03-21 16:24 721String 字符串常量,不可变 StringBuffer 字 ... -
数字证书
2014-03-18 17:20 785http://blog.csdn.net/zhulinfeib ... -
fish
2014-03-18 16:48 0互联网和企业应用最大的区别在于表现层的以及业务的复杂性上面。这 ... -
系统代码基本规范
2014-03-13 22:41 0系统代码基本规范 排 ... -
try catch return
2014-03-11 16:22 759package com.java.test; impor ... -
PO/POJO/VO/BO/DAO/DTO
2013-12-26 17:12 793PO(persistant object) 持久对 ... -
servlet
2013-12-21 17:47 710用Servlet获取URL地址。在HttpServletReq ... -
native2ascii
2013-12-16 15:42 765>native2ascii 中国 \u4e2d\u5 ... -
xStream 框架
2013-12-10 15:31 778http://www.cnblogs.com/hoojo/a ... -
Bat命令学习
2013-08-22 17:33 1581基础部分: 一、基础语法: 1.批处理文件是一个“. ...
相关推荐
实际操作时,可能还需要考虑登录、分页、动态加载等问题,这些可以通过HttpClient设置cookie和处理重定向,或者使用Jsoup的Jsoup.connect模拟JavaScript执行来解决。 总之,HttpClient和Jsoup是Java开发者进行网页...
初级爬虫
本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据。 ### Java爬虫基础 Java爬虫是指使用Java语言编写的一类程序,这些程序...
Java通过Jsoup爬取网页的过程可以分为几个关键步骤,包括导入必要的依赖、编写爬虫程序、执行网络请求以及解析网页内容。下面详细介绍这些知识点。 1. 导入依赖 为了使用Jsoup库进行网页爬取,首先需要在项目中添加...
标题中的“jsoup httpclient 爬取网页并下载google图标”揭示了这个项目或教程是关于使用Java的两个著名库——Jsoup和HttpClient,来实现网页抓取并下载特定资源,这里是Google的图标。Jsoup是一个用于处理实际世界...
在这个项目中,我们使用了Jsoup库来实现对“斗图啦”网站的图片爬取与下载。 Jsoup是一个非常流行的Java库,专门用于处理和解析HTML文档。它的主要功能包括提取结构化数据、查找和修改DOM元素,以及模拟浏览器的...
基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+maven+httpClient+jsoup实现小说网站项目 基于SSM+...
基于SSM+maven+httpClient+jsoup实现小说网站项目源码.zip 基于SSM+maven+httpClient+jsoup实现小说网站项目源码.zip 基于SSM+maven+httpClient+jsoup实现小说网站项目源码.zip 基于SSM+maven+httpClient+jsoup实现...
在本项目中,我们主要探讨如何使用Spring Boot集成HttpClient库来爬取京东网站的数据,并将这些数据存储到MySQL数据库中。这是一个非常适合初学者的技术实践,旨在帮助开发者了解Web爬虫的基本构建块以及如何在实际...
本主题主要关注如何使用`httpclient4.*`库来绕过验证码获取公司信息,以及结合`jsoup`解析静态网页信息和`htmlUnit`处理动态网站的抓取。以下是对这些知识点的详细说明: 1. **httpclient4.***: Apache HttpClient...
总的来说,HttpClient与Jsoup的结合使用,为Java开发者提供了一套高效、灵活的数据采集解决方案。通过它们,你可以轻松地从网页中获取并处理所需信息,为数据分析、信息监控或其他相关任务提供支持。但同时也需要...
本项目主要涉及的是使用Apache HttpClient库来实现批量爬取“美图”的过程。HttpClient是Java编程语言中的一款强大且灵活的HTTP客户端,适用于执行各种HTTP操作,包括GET、POST、PUT等请求方法。下面我们将深入探讨...
在“Jsoup网络爬虫(动态ip代理,突破ip访问次数限制)爬取全国各省市区数据”这个项目中,我们将会深入探讨如何使用Jsoup进行网络爬虫开发,并且解决在爬虫过程中遇到的IP访问限制问题。 首先,我们需要理解Jsoup...
本文将详细探讨使用Java中的两种库——HttpClient和Jsoup,以及它们结合使用来构建网页爬虫的方法。 HttpClient是Apache软件基金会的一个项目,提供了对HTTP协议的全面支持,包括请求/响应模型、连接管理、重定向...
在这个例程中,我们将深入探讨如何利用HttpClient来调用一个天气预报接口,并解析返回的JSON数据。以下是一些关键知识点: 1. **HttpClient库**:HttpClient是Apache提供的一个开源库,它允许开发者构建HTTP客户端...
Spring Boot + Java + Jsoup 爬虫是一个常见的技术组合,用于构建高效、简洁的网络爬虫项目。本文将深入探讨这些技术如何协同工作,以及如何利用它们来抓取和处理网页上的图片资源。 首先,Spring Boot 是一个由...
对于图片,我们使用`<img>`标签的`src`属性获取URL,然后使用Java的`HttpURLConnection`或第三方库如Apache HttpClient下载图片,保存到本地,并将`src`属性替换为本地路径。 对于CSS和JavaScript,情况类似。`...