- 浏览: 96809 次
- 性别:
- 来自: 广州
-
最新评论
-
dragoo1:
学习了
Oracle 获取本周、本月、本季、本年的第一天和最后一天 -
wilsonchen:
楼主,谢谢分享。请教一个问题,如何做到既分页又排序呢?
java mail(接收邮件)
jsoup下载地址 http://www.jsoup.org
httpclient下载地址 http://hc.apache.org/downloads.cgi
其他jar包见附件
package jsoup; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.util.HashMap; import java.util.Map; import org.apache.commons.io.FileUtils; import org.apache.commons.io.IOUtils; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.DefaultHttpClient; import org.apache.http.params.HttpProtocolParams; import org.apache.http.util.EntityUtils; import com.google.api.translate.Language; import com.google.api.translate.Translate; /** * google logo 下载程序 */ public abstract class Crawler { /** * 使用google 翻译api * * @param en * @return */ public String translateEnToCinese(String en) { Translate.setHttpReferrer("http://www.xxx.com"); try { return Translate.execute(en, Language.ENGLISH, Language.CHINESE); } catch (Exception e) { e.printStackTrace(); } return ""; } /** * 获取一个Map * * @return */ public Map<String, Object> getMap() { return new HashMap<String, Object>(0); } /** * 下载文件 * * @param url * 文件http地址 * @param dir * 目标文件 * @throws IOException */ public void downloadFile(String url, String dir) throws Exception { DefaultHttpClient httpClient = new DefaultHttpClient(); HttpProtocolParams.setUserAgent(httpClient.getParams(), "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.9) Gecko/20100315 Firefox/3.5.9"); HttpGet httpGet = new HttpGet(); httpGet.setURI(new java.net.URI(url)); InputStream input = null; FileOutputStream output = null; try { HttpResponse response = httpClient.execute(httpGet); HttpEntity entity = response.getEntity(); input = entity.getContent(); File file = new File(dir); output = FileUtils.openOutputStream(file); IOUtils.copy(input, output); } catch (Exception e){ e.printStackTrace(); } finally { IOUtils.closeQuietly(output); IOUtils.closeQuietly(input); } } /** * 处理GET请求,返回整个页面 * * @param url * 访问地址 * @param params * 编码参数 * @return * @throws Exception */ public synchronized String doGet(String url, String... params) throws Exception { DefaultHttpClient httpClient = new DefaultHttpClient(); // 创建httpClient实例 HttpProtocolParams.setUserAgent(httpClient.getParams(), "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.9) Gecko/20100315 Firefox/3.5.9"); String charset = "UTF-8"; if (null != params && params.length >= 1) { charset = params[0]; } HttpGet httpGet = new HttpGet(); // 创建get方法实例 String content = ""; httpGet.setURI(new java.net.URI(url)); try { HttpResponse response = httpClient.execute(httpGet); // 执行请求,得到response对象 int resStatu = response.getStatusLine().getStatusCode(); // 得到返回的状态码 if (resStatu == HttpStatus.SC_OK) { // 200正常 HttpEntity entity = response.getEntity(); // 获得相应的实体 if (entity != null) { // 使用EntityUtils的toString方法,传递默认编码,在EntityUtils中的默认编码是ISO-8859-1 content = EntityUtils.toString(entity, charset); } } } catch (Exception e) { System.out.println("访问【" + url + "】出现异常!"); e.printStackTrace(); } finally { // 关闭资源 httpGet.abort(); httpClient.getConnectionManager().shutdown(); } return content; } }
package jsoup; import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.Date; import java.util.List; import java.util.Map; import org.apache.commons.io.FileUtils; import org.apache.commons.lang.StringUtils; import org.json.JSONArray; import org.json.JSONObject; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; /** * google logo 下载程序 */ public class GoogleLogoCrawler extends Crawler { private static final String URL = "http://www.logocollect.com/google/year.php?key=%y&page=%p"; private static final String LOGO_URL = "http://www.logocollect.com/google/"; private static final String[] YEARS = new String[] { //"1998", "1999", "2000", //"2001", "2002", "2003", "2004", "2005", "2006", "2007", "2008", "2009", "2010", "2011", "2012" }; private static final String INDEX = "http://www.logocollect.com/google/year.php?key=%y"; private static final String DIR_PATH = "D:\\googlelogos\\"; public void doStart() { JSONArray array = new JSONArray(); for (String year : YEARS) { String ind = INDEX.replaceAll("%y", year); int pageCount = getPageCount(ind); for (int i = 1; i < pageCount+1; i++) { String url = URL.replaceAll("%y", year).replaceAll("%p", i + ""); String path = year + "_" + i; start(url, array, DIR_PATH + path + "\\", path); } } try { FileUtils.writeStringToFile(new File(DIR_PATH + "json"), array.toString(), "UTF-8"); } catch (IOException e) { e.printStackTrace(); } System.out.println(array); } public int getPageCount(String url) { int pageCount = 1; try { org.jsoup.nodes.Document doc = Jsoup.connect(url).get(); String els = doc.html().toString(); int start = els.indexOf("总页数") + 4; String temp = els.substring(start); int end = temp.indexOf(","); pageCount = Integer.parseInt(els.substring(start,start+end)); System.out.println(pageCount); } catch (IOException e) { e.printStackTrace(); } return pageCount; } public void start(String url, JSONArray array, String dir, String path) { try { String content = super.doGet(url); Document doc = Jsoup.parse(content); Elements dds = doc.select(".img img"); List<Map<String, Object>> list = new ArrayList<Map<String, Object>>(0); for (int i = 0; i < dds.size(); i++) { Element img = dds.get(i); String src = img.select("img").first().attr("src"); String title = img.select("img").first().attr("title"); Map<String, Object> map = super.getMap(); map.put("url", LOGO_URL + src); map.put("title", title); list.add(map); } JSONArray tempJsonArray = new JSONArray(); for (Map<String, Object> map : list) { JSONObject jsonObject = new JSONObject(); String proxy = StringUtils.substringAfterLast(map.get("url") .toString(), "."); long date = new Date().getTime(); String name = date + "." + proxy; jsonObject.put("url", map.get("url").toString()); jsonObject.put("dir", name); jsonObject.put("title", map.get("title").toString()); // 翻译 // String dateZh = super.translateEnToCinese(map.get("date") // .toString()); // String titleZh = super.translateEnToCinese(map.get("title") // .toString()); // json.put("title_zh_cn", dateZh + " - " + titleZh); // 下载图片 super.downloadFile(map.get("url").toString(), dir + name); tempJsonArray.put(jsonObject); } array.put(new JSONObject().put(path, tempJsonArray)); } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) throws Exception { new GoogleLogoCrawler().doStart(); } }
- other.rar (389.2 KB)
- 下载次数: 140
发表评论
-
jsoup从巨鲸批量下载迈克杰克逊的MP3歌曲
2012-03-21 14:13 1964jsoup下载地址 http://www.jsoup.org ... -
jsoup抓取其他网站的页面代码
2012-03-19 15:29 1720需要的jar包见http://you-java.iteye.c ... -
HttpClient根据jsoup解析网页
2012-03-19 12:30 6494package jsoup; import org ... -
java排序3(插入排序)
2012-03-14 10:36 1207package hello; import jav ... -
java排序2(选择排序)
2012-03-14 10:35 1216package hello; import jav ... -
java排序1(冒泡排序)
2012-03-14 10:19 1233package hello; import jav ... -
java面试题集锦
2012-03-01 16:42 1101java面试题集锦 见附件... -
java面向对象笔记
2012-02-19 16:52 1038面向对象总结 面 ...
相关推荐
在日常的工作和学习中,你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼?DeepSeek 或许就是你一直在寻找的解决方案!它以其高效、智能的特点,在各个行业都展现出了巨大的应用价值。然而,想要充分发挥 DeepSeek 的优势,掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发,为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习,你将能够轻松地运用 DeepSeek 解决实际问题,提升工作效率和质量,让自己在职场和学术领域脱颖而出。现在,就让我们一起开启这场实用又高效的学习之旅吧!
前端分析-2023071100789
基于kinect的3D人体建模C++完整代码.cpp
搞机工具箱10.1.0.7z
GRU+informer时间序列预测(Python完整源码和数据),python代码,pytorch架构,适合各种时间序列直接预测。 适合小白,注释清楚,都能看懂。功能如下: 代码基于数据集划分为训练集测试集。 1.多变量输入,单变量输出/可改多输出 2.多时间步预测,单时间步预测 3.评价指标:R方 RMSE MAE MAPE,对比图 4.数据从excel/csv文件中读取,直接替换即可。 5.结果保存到文本中,可以后续处理。 代码带数据,注释清晰,直接一键运行即可,适合新手小白。
在日常的工作和学习中,你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼?DeepSeek 或许就是你一直在寻找的解决方案!它以其高效、智能的特点,在各个行业都展现出了巨大的应用价值。然而,想要充分发挥 DeepSeek 的优势,掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发,为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习,你将能够轻松地运用 DeepSeek 解决实际问题,提升工作效率和质量,让自己在职场和学术领域脱颖而出。现在,就让我们一起开启这场实用又高效的学习之旅吧!
基于ANSYS LSDyna的DEM-SPH-FEM耦合模拟滑坡入水动态行为研究,基于ANSYS LSDyna的DEM-SPH-FEM耦合的滑坡入水模拟分析研究,基于ansys lsdyna的滑坡入水模拟dem-sph-fem耦合 ,基于ANSYS LSDyna; 滑坡入水模拟; DEM-SPH-FEM 耦合,基于DEM-SPH-FEM耦合的ANSYS LSDyna滑坡入水模拟
auto_gptq-0.6.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
复件 复件 建设工程可行性研究合同[示范文本].doc
13考试真题最近的t64.txt
好用我已经解决报错问题
# 踏入C语言的奇妙编程世界 在编程的广阔宇宙中,C语言宛如一颗璀璨恒星,以其独特魅力与强大功能,始终占据着不可替代的地位。无论你是编程小白,还是有一定基础想进一步提升的开发者,C语言都值得深入探索。 C语言的高效性与可移植性令人瞩目。它能直接操控硬件,执行速度快,是系统软件、嵌入式开发的首选。同时,代码可在不同操作系统和硬件平台间轻松移植,极大节省开发成本。 学习C语言,能让你深入理解计算机底层原理,培养逻辑思维和问题解决能力。掌握C语言后,再学习其他编程语言也会事半功倍。 现在,让我们一起开启C语言学习之旅。这里有丰富教程、实用案例、详细代码解析,助你逐步掌握C语言核心知识和编程技巧。别再犹豫,加入我们,在C语言的海洋中尽情遨游,挖掘无限可能,为未来的编程之路打下坚实基础!
auto_gptq-0.4.2-cp38-cp38-win_amd64.whl
自动立体库设计方案.pptx
# 踏入C语言的奇妙编程世界 在编程的广阔宇宙中,C语言宛如一颗璀璨恒星,以其独特魅力与强大功能,始终占据着不可替代的地位。无论你是编程小白,还是有一定基础想进一步提升的开发者,C语言都值得深入探索。 C语言的高效性与可移植性令人瞩目。它能直接操控硬件,执行速度快,是系统软件、嵌入式开发的首选。同时,代码可在不同操作系统和硬件平台间轻松移植,极大节省开发成本。 学习C语言,能让你深入理解计算机底层原理,培养逻辑思维和问题解决能力。掌握C语言后,再学习其他编程语言也会事半功倍。 现在,让我们一起开启C语言学习之旅。这里有丰富教程、实用案例、详细代码解析,助你逐步掌握C语言核心知识和编程技巧。别再犹豫,加入我们,在C语言的海洋中尽情遨游,挖掘无限可能,为未来的编程之路打下坚实基础!
在日常的工作和学习中,你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼?DeepSeek 或许就是你一直在寻找的解决方案!它以其高效、智能的特点,在各个行业都展现出了巨大的应用价值。然而,想要充分发挥 DeepSeek 的优势,掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发,为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习,你将能够轻松地运用 DeepSeek 解决实际问题,提升工作效率和质量,让自己在职场和学术领域脱颖而出。现在,就让我们一起开启这场实用又高效的学习之旅吧!
在日常的工作和学习中,你是否常常为处理复杂的数据、生成高质量的文本或者进行精准的图像识别而烦恼?DeepSeek 或许就是你一直在寻找的解决方案!它以其高效、智能的特点,在各个行业都展现出了巨大的应用价值。然而,想要充分发挥 DeepSeek 的优势,掌握从入门到精通的知识和技能至关重要。本文将从实际应用的角度出发,为你详细介绍 DeepSeek 的基本原理、操作方法以及高级技巧。通过系统的学习,你将能够轻松地运用 DeepSeek 解决实际问题,提升工作效率和质量,让自己在职场和学术领域脱颖而出。现在,就让我们一起开启这场实用又高效的学习之旅吧!
# 踏入C语言的奇妙编程世界 在编程的广阔宇宙中,C语言宛如一颗璀璨恒星,以其独特魅力与强大功能,始终占据着不可替代的地位。无论你是编程小白,还是有一定基础想进一步提升的开发者,C语言都值得深入探索。 C语言的高效性与可移植性令人瞩目。它能直接操控硬件,执行速度快,是系统软件、嵌入式开发的首选。同时,代码可在不同操作系统和硬件平台间轻松移植,极大节省开发成本。 学习C语言,能让你深入理解计算机底层原理,培养逻辑思维和问题解决能力。掌握C语言后,再学习其他编程语言也会事半功倍。 现在,让我们一起开启C语言学习之旅。这里有丰富教程、实用案例、详细代码解析,助你逐步掌握C语言核心知识和编程技巧。别再犹豫,加入我们,在C语言的海洋中尽情遨游,挖掘无限可能,为未来的编程之路打下坚实基础!
用deepseek变现实操流程,小白必看。