写了一个爬虫需要抓取某个网站的相关信息,文字信息都没有问题,但是 图片信息对方网站使用了防盗链技术,抓取图片的时候出现 403 错误
最后进过各种尝试终于成功
上代码,以备以后查看
public static String getHttpPicToCS(String url, String picid)
throws Exception {
String str = "";
HttpClient client = new DefaultHttpClient();
int code = 0;
HttpGet httpGet = new HttpGet(url);
InputStream in = null;
try {
long t1 = System.currentTimeMillis();
// 设置连接超时时间(单位毫秒)
httpGet.getParams().setParameter(
CoreConnectionPNames.CONNECTION_TIMEOUT,
HTTPCLIENT_CONNECTION_TIMEOUT);
httpGet.setHeader("Referer", url); // 专门应对防盗链 url 可以写对方网站url
// 设置读数据超时时间(单位毫秒)
httpGet.getParams().setParameter(CoreConnectionPNames.SO_TIMEOUT,
HTTPCLIENT_SO_TIMEOUT);
httpGet.getParams().setParameter("User-Agent","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)" );
HttpResponse response = client.execute(httpGet);
HttpEntity entity = response.getEntity();
code = response.getStatusLine().getStatusCode();
if (code == 200 && entity != null) {
in = entity.getContent();
str = UpdateFile.updateFile(in, picid);
logger.info("str=" + str);
} else {
httpGet.abort();
return null;
}
long t2 = System.currentTimeMillis();
long to = t2 - t1;
logger.info("---HttpUtil---url:" + url + " , time:" + to
+ " ms , code:" + code);
} catch (Exception e) {
logger.error("------HttpUtil-----error--url:" + url + " , "
+ e.getMessage());
throw e;
} finally {
if(in!=null)
in.close();
httpGet.releaseConnection();
client.getConnectionManager().shutdown();
}
return str;
}
相关推荐
这个"Java爬虫小例子"项目展示了如何利用Java来爬取小型网站,特别是那些有防盗链保护的图片资源。防盗链是网站为了防止其他网站直接引用其服务器上的资源而采取的一种防护措施。下面我们将深入探讨相关的知识点。 ...
禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } 禁止指定UA及UA为空的访问 #forbidden Scrapy if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; ...
4. **数据存储**:采集到的数据会被存储在本地数据库或云端,便于后续分析和使用。这可能涉及ADO.NET库用于与SQL Server等关系型数据库交互,或者使用NoSQL数据库如MongoDB。 5. **定制和扩展**:用户可以根据需要...
python学习资源
jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目
基于Andorid的音乐播放器项目设计(国外开源)实现源码,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。
python学习资源
python学习资源
python学习一些项目和资源
【毕业设计】java-springboot+vue家具销售平台实现源码(完整前后端+mysql+说明文档+LunW).zip
HTML+CSS+JavaScarip开发的前端网页源代码
python学习资源
【毕业设计】java-springboot-vue健身房信息管理系统源码(完整前后端+mysql+说明文档+LunW).zip
成绩管理系统C/Go。大学生期末小作业,指针实现,C语言版本(ANSI C)和Go语言版本
1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx
【毕业设计】java-springboot-vue交流互动平台实现源码(完整前后端+mysql+说明文档+LunW).zip
内容概要:本文主要探讨了在高并发情况下如何设计并优化火车票秒杀系统,确保系统的高性能与稳定性。通过对比分析三种库存管理模式(下单减库存、支付减库存、预扣库存),强调了预扣库存结合本地缓存及远程Redis统一库存的优势,同时介绍了如何利用Nginx的加权轮询策略、MQ消息队列异步处理等方式降低系统压力,保障交易完整性和数据一致性,防止超卖现象。 适用人群:具有一定互联网应用开发经验的研发人员和技术管理人员。 使用场景及目标:适用于电商、票务等行业需要处理大量瞬时并发请求的业务场景。其目标在于通过合理的架构规划,实现在高峰期保持平台的稳定运行,保证用户体验的同时最大化销售额。 其他说明:文中提及的技术细节如Epoll I/O多路复用模型以及分布式系统中的容错措施等内容,对于深入理解大规模并发系统的构建有着重要指导意义。
基于 OpenCV 和 PyTorch 的深度车牌识别
【毕业设计-java】springboot-vue教学资料管理系统实现源码(完整前后端+mysql+说明文档+LunW).zip
此数据集包含有关出租车行程的详细信息,包括乘客人数、行程距离、付款类型、车费金额和行程时长。它可用于各种数据分析和机器学习应用程序,例如票价预测和乘车模式分析。