`
you_java
  • 浏览: 96379 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

jsoup httpclient 爬取网页并下载google图标

    博客分类:
  • java
阅读更多

jsoup下载地址 http://www.jsoup.org

httpclient下载地址 http://hc.apache.org/downloads.cgi

其他jar包见附件

package jsoup;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.HashMap;
import java.util.Map;

import org.apache.commons.io.FileUtils;
import org.apache.commons.io.IOUtils;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.params.HttpProtocolParams;
import org.apache.http.util.EntityUtils;

import com.google.api.translate.Language;
import com.google.api.translate.Translate;

/**
 * google logo 下载程序
 */
public abstract class Crawler {

	/**
	 * 使用google 翻译api
	 * 
	 * @param en
	 * @return
	 */
	public String translateEnToCinese(String en) {
		Translate.setHttpReferrer("http://www.xxx.com");
		try {
			return Translate.execute(en, Language.ENGLISH, Language.CHINESE);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return "";
	}

	/**
	 * 获取一个Map
	 * 
	 * @return
	 */
	public Map<String, Object> getMap() {
		return new HashMap<String, Object>(0);
	}

	/**
	 * 下载文件
	 * 
	 * @param url
	 *            文件http地址
	 * @param dir
	 *            目标文件
	 * @throws IOException
	 */
	public void downloadFile(String url, String dir) throws Exception {
		DefaultHttpClient httpClient = new DefaultHttpClient();
		HttpProtocolParams.setUserAgent(httpClient.getParams(),
						"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.9) Gecko/20100315 Firefox/3.5.9");
		HttpGet httpGet = new HttpGet();
		httpGet.setURI(new java.net.URI(url));
		
		InputStream input = null;
		FileOutputStream output = null;
		try {
			HttpResponse response = httpClient.execute(httpGet);
			HttpEntity entity = response.getEntity();
			input = entity.getContent();
			File file = new File(dir);
			output = FileUtils.openOutputStream(file);
			IOUtils.copy(input, output);
		} catch (Exception e){
			e.printStackTrace();
		} finally {
			IOUtils.closeQuietly(output);
			IOUtils.closeQuietly(input);
		}
	}

	/**
	 * 处理GET请求,返回整个页面
	 * 
	 * @param url
	 *            访问地址
	 * @param params
	 *            编码参数
	 * @return
	 * @throws Exception
	 */
	public synchronized String doGet(String url, String... params)
			throws Exception {
		DefaultHttpClient httpClient = new DefaultHttpClient(); // 创建httpClient实例
		HttpProtocolParams.setUserAgent(httpClient.getParams(),
						"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.9) Gecko/20100315 Firefox/3.5.9");
		String charset = "UTF-8";
		if (null != params && params.length >= 1) {
			charset = params[0];
		}
		HttpGet httpGet = new HttpGet(); // 创建get方法实例
		String content = "";
		httpGet.setURI(new java.net.URI(url));
		try {
			HttpResponse response = httpClient.execute(httpGet); // 执行请求,得到response对象
			int resStatu = response.getStatusLine().getStatusCode(); // 得到返回的状态码
			if (resStatu == HttpStatus.SC_OK) { // 200正常
				HttpEntity entity = response.getEntity(); // 获得相应的实体
				if (entity != null) {
					// 使用EntityUtils的toString方法,传递默认编码,在EntityUtils中的默认编码是ISO-8859-1
					content = EntityUtils.toString(entity, charset);
				}
			}
		} catch (Exception e) {
			System.out.println("访问【" + url + "】出现异常!");
			e.printStackTrace();
		} finally {
			// 关闭资源
			httpGet.abort();
			httpClient.getConnectionManager().shutdown();
		}
		return content;
	}
}

 

 

package jsoup;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;
import java.util.Map;

import org.apache.commons.io.FileUtils;
import org.apache.commons.lang.StringUtils;
import org.json.JSONArray;
import org.json.JSONObject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * google logo 下载程序
 */
public class GoogleLogoCrawler extends Crawler {
	
	private static final String URL = "http://www.logocollect.com/google/year.php?key=%y&page=%p"; 

	private static final String LOGO_URL = "http://www.logocollect.com/google/";

	private static final String[] YEARS = new String[] { 
			//"1998", "1999", "2000",
			//"2001", "2002", "2003", "2004", "2005", "2006", "2007", "2008", 
			"2009", "2010", "2011", "2012" };

	private static final String INDEX = "http://www.logocollect.com/google/year.php?key=%y"; 

	private static final String DIR_PATH = "D:\\googlelogos\\";

	public void doStart() {
		JSONArray array = new JSONArray();
		for (String year : YEARS) {
			String ind = INDEX.replaceAll("%y", year);
			int pageCount = getPageCount(ind);
			for (int i = 1; i < pageCount+1; i++) {
				String url = URL.replaceAll("%y", year).replaceAll("%p", i + "");
				String path = year + "_" + i;
				start(url, array, DIR_PATH + path + "\\", path);
			}
		}
		try {
			FileUtils.writeStringToFile(new File(DIR_PATH + "json"), array.toString(), "UTF-8");
		} catch (IOException e) {
			e.printStackTrace();
		}
		System.out.println(array);
	}
	
	public int getPageCount(String url) {
		int pageCount = 1;
		try {
			org.jsoup.nodes.Document doc = Jsoup.connect(url).get();
			
			String els = doc.html().toString();
			int start = els.indexOf("总页数") + 4;
			String temp = els.substring(start);
			int end = temp.indexOf(",");
			pageCount = Integer.parseInt(els.substring(start,start+end));
			System.out.println(pageCount);
		} catch (IOException e) {
			e.printStackTrace();
		}
		return pageCount;
	}

	public void start(String url, JSONArray array, String dir, String path) {
		try {
			String content = super.doGet(url);
			Document doc = Jsoup.parse(content);
			Elements dds = doc.select(".img img");
			List<Map<String, Object>> list = new ArrayList<Map<String, Object>>(0);
			for (int i = 0; i < dds.size(); i++) {
				Element img = dds.get(i);
				String src = img.select("img").first().attr("src");
				String title = img.select("img").first().attr("title");
				Map<String, Object> map = super.getMap();
				
				map.put("url", LOGO_URL + src);
				map.put("title", title);
				
				list.add(map);
			}
			JSONArray tempJsonArray = new JSONArray();
			for (Map<String, Object> map : list) {
				JSONObject jsonObject = new JSONObject();
				String proxy = StringUtils.substringAfterLast(map.get("url")
						.toString(), ".");
				long date = new Date().getTime();
				String name = date + "." + proxy;
				jsonObject.put("url", map.get("url").toString());
				jsonObject.put("dir", name);
				jsonObject.put("title", map.get("title").toString());
				
				// 翻译
//				String dateZh = super.translateEnToCinese(map.get("date")
//						.toString());
//				String titleZh = super.translateEnToCinese(map.get("title")
//						.toString());
//				json.put("title_zh_cn", dateZh + " - " + titleZh);
				
				// 下载图片
				super.downloadFile(map.get("url").toString(), dir + name);
				tempJsonArray.put(jsonObject);
			}
			array.put(new JSONObject().put(path, tempJsonArray));
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	public static void main(String[] args) throws Exception {
		new GoogleLogoCrawler().doStart();
	}

}
 

 

分享到:
评论

相关推荐

    jsoup分页爬取网页

    **jsoup分页爬取网页** Jsoup是一个Java库,设计用于处理和解析HTML,它提供了非常方便的API,使得开发者能够轻松地提取和操作数据,就像使用DOM、CSS以及jQuery那样。在网页爬虫领域,jsoup尤其适用于抓取和分析...

    jsoup实现爬取一个完整的网站,并保存到本地

    用jsoup实现爬取一个完整的网站,包含网站里的所有链接内容,会另存为html到本地,js和css文件也会保存到本地,可以直接在本地打开查看一个完整的网站。...提供一个链接和保存爬取后的网页保存位置即可。

    Java爬虫Jsoup+httpclient获取动态生成的数据

    常见的Java爬虫库包括Jsoup、HttpClient、HtmlUnit等,它们各具特色,能够处理不同类型的网页内容。 ### Jsoup库解析 Jsoup是一个强大的HTML解析器,它可以帮助开发者从HTML文档中提取和操作数据。Jsoup可以连接到...

    HttpClient Jsoup爬取天气预报

    这篇博客“HttpClient Jsoup爬取天气预报”可能讲述了如何结合这两者来获取并解析网页上的天气预报信息。 首先,HttpClient允许开发者发送各种HTTP请求(如GET、POST等)到服务器,并接收响应。在爬虫应用中,通常...

    jsoup爬取网页数据

    jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 1. 从一个URL,文件或字符串中解析HTML; 2. 使用...

    httpClient+jsoup 抓取网页数据

    总之,HttpClient和Jsoup是Java开发者进行网页数据抓取的强大工具。HttpClient提供可靠的HTTP通信,而Jsoup则简化了HTML解析和数据提取的过程。结合两者,你可以高效地从各种网页中获取你需要的信息。在实际项目中,...

    agriculture_jsoup数据爬取示例_

    在这个“agriculture_jsoup数据爬取示例”中,我们将探讨如何利用Jsoup库来抓取猪易通网站上的数据并将其存储到本地数据库。 Jsoup是一个Java库,它提供了一个简单、方便的方式来解析HTML文档,提取和操作数据。它...

    jsoup+httpclient+jar包

    HttpClient与JSoup结合使用,可以实现更高级的网页访问和数据获取。 **结合使用JSoup和HTTPClient** 将JSoup与HTTPClient结合,可以创建一个高效且灵活的网页爬虫。首先,HTTPClient负责发起HTTP请求,获取网页的...

    java通过Jsoup爬取网页过程详解

    Java通过Jsoup爬取网页的过程可以分为几个关键步骤,包括导入必要的依赖、编写爬虫程序、执行网络请求以及解析网页内容。下面详细介绍这些知识点。 1. 导入依赖 为了使用Jsoup库进行网页爬取,首先需要在项目中添加...

    知网-基于Java+HtmlUtil+jsoup实现爬取知网中国专利数据.zip

    在爬取网页数据时,Java提供了丰富的类库,如HttpURLConnection、HttpClient等,可以用来发送HTTP请求,获取网页内容。 HtmlUtil通常是一个自定义的工具类,用于处理HTML文档。在这个项目中,它可能包含了对HTML...

    针对 httpclient4.* 绕验证码获取公司信息 包括 jsoup网页信息的爬虫及htmlUnit对动态网站信息的抓取

    本主题主要关注如何使用`httpclient4.*`库来绕过验证码获取公司信息,以及结合`jsoup`解析静态网页信息和`htmlUnit`处理动态网站的抓取。以下是对这些知识点的详细说明: 1. **httpclient4.***: Apache HttpClient...

    java jsoup应用爬取数据存储数据库及日志开关

    Java和Jsoup库在Web数据抓取中的应用广泛,它们为开发者提供了强大的工具来解析HTML文档,提取所需信息,并进一步处理这些数据。本教程将深入探讨如何使用Jsoup进行网页抓取,如何将抓取的数据存储到数据库中,以及...

    java爬取网页用到的一些jar

    在Java编程语言中,爬取网页是一项常见的任务,主要用于数据抓取、数据分析或者构建智能搜索引擎。这个名为“java爬取网页用到的一些jar”的压缩包很可能是包含了一系列用于网页抓取的Java库。这些库可以帮助开发者...

    jsoup+htmlunitl 爬取外币汇率

    在本文中,我们将深入探讨如何使用Jsoup和HtmlUnit库来爬取并处理网页上的外币汇率信息。这两个工具是Java编程语言中的强大选择,用于网络数据抓取和页面解析。 首先,Jsoup是一个用于处理实际世界HTML的Java库。它...

    Android项目源码简单利用jsoup爬取学校内网数据

    本项目是一个基于安卓的简单利用jsoup爬取学校内网数据的教务系统app,设计的部分有:个人信息、课程表、考试时间、考勤信息、成绩查询、奖惩情况、开设课程、晚归违规等部分。主要思路就是利用jsoup爬数据把数据转化...

    Jsoup爬取中国天气的简单实例

    在这个"Jsoup爬取中国天气的简单实例"中,我们将深入探讨如何利用Jsoup进行网页抓取,特别是针对中国天气网站。这个实例非常适合对网络爬虫感兴趣的初学者,因为它提供了直观且易于理解的代码示例。 首先,让我们...

    html dom jsoup httpclient

    HTML DOM (Document Object Model) 是一种编程接口,用于表示HTML或XML文档的结构,并允许程序和脚本动态更新、添加和删除元素。DOM 把整个HTML文档解析为一个树形结构,每个节点代表文档的一部分,如元素、属性、...

Global site tag (gtag.js) - Google Analytics