有的网站限制网络爬虫的抓取,例如javaeye。会出现错误提示:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta name="keyword" content="JavaEye,IT,开发,交流,社区,java, ruby, ajax, agile" />
<title>您的访问请求被拒绝 - JavaEye技术社区</title>
<style type="text/css">
.clearfix:after {
content: ".";
display: block;
height: 0;
clear: both;
visibility: hidden;
}
.clearfix {
display:block;
}
.left {
float: left;
}
h1 {font-size: 20px;color: #6293BB;}
p {font-size: 14px;color: #6293BB;}
</style>
</head>
<body>
<div style="padding:50px 0 0 300px">
<h1>您的访问请求被拒绝</h1>
</div>
<div class="clearfix">
<div class="left" style="padding-left:120px">
<img src="/images/filenotfound.jpg" width="128" height="128" />
</div>
<div class="left" style="width:700px;padding:30px 0 0 30px">
<p>您可能使用了网络爬虫抓取JavaEye网站页面!</p>
<p>JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取,请您立刻停止该抓取行为!</p>
<p>如果您的网络爬虫不属于恶意抓取行为,希望JavaEye网站允许你进行网页抓取,请和JavaEye管理员联系,取得授权: webmaster<img src='/images/email.gif' alt="Email" />support.iteye.com</p>
<p>如果您确实使用浏览器访问,但是被错误的识别为网络爬虫,请将您浏览器发送的“User Agent”信息告知我们,帮助我们解决错误: webmaster<img src='/images/email.gif' alt="Email" />support.iteye.com</p>
</div>
</div>
<div style="padding:20px 0 0 500px">
<a href="http://www.iteye.com"><img src='/images/logo_small.gif' border='0'></a>
</div>
</body>
</html>
不过可以设置下链接的参数。
URL url=new URL(pathString);
URLConnection con=url.openConnection();
con.setDoOutput(true);
con.setRequestProperty("User-Agent", "");
加上上面红色的一句,就可以了。
或者使用httpclient是,添加
HttpClient httpClient=new HttpClient();
httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(50000);
httpClient.getParams().setParameter(HttpMethodParams.USER_AGENT,"Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5");
这样就可以了。
转:http://gbfd2012.iteye.com/blog/732227
分享到:
相关推荐
这个项目的核心是爬虫技术,它利用自动化的方式遍历互联网上的网页,寻找并抓取网盘链接,然后将这些链接整理到一个可搜索的数据库中,用户可以通过该网站进行快速查找。 1. **爬虫技术**:爬虫是搜索引擎的重要...
京东商城商品信息爬取是这个项目的核心,它的目标是从京东商城的网站上抓取商品的相关信息,然后进行数据分析,以便于构建一个类似功能的商城网站。在这个过程中,我们需要掌握以下几个关键知识点: 1. **网络爬虫...
防爬虫机制是企业常用的防御手段,KS-WAF(网站统一防护系统)将爬虫行为分为搜索引擎爬虫及扫描程序爬虫,可以屏蔽特定的搜索引擎爬虫节省带宽和性能,也可屏蔽扫描程序爬虫,避免网站被恶意抓取页面。 Python爬虫...
总的来说,SpringBoot爬虫项目结合MyBatis,实现了从网络抓取数据并存储到数据库的功能。通过合理的架构设计和组件选择,我们能够构建出高效、可扩展的爬虫系统。在实际应用中,还应注意遵守网站的Robots协议,尊重...
01 爬虫实现原理简介 02 爬虫抓取网页的详细流程 03 通用爬虫中网页的分类 04 通用爬虫相关网站文件 05 防爬虫应对策略 06 为什么选择Python做爬虫 网站通过robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面...
总结起来,网络爬虫在新浪微博数据抓取中扮演着关键角色,它涉及到模拟登录、网页解析、动态加载处理、防封策略等多个复杂技术环节。通过合理的技术手段和合规的操作,我们可以高效地获取并利用微博数据,为各种应用...
标题中的“抓取预警信息(全国数据10分钟更新一次).zip”表明这是一个与实时气象预警信息抓取相关的项目,其中的数据每10分钟进行一次全国范围的更新。这通常涉及到网络爬虫技术,用于从指定的气象网站或者API接口...
综上所述,"抓取网页上的Email地址"涉及的技术包括正则表达式、网络爬虫技术、HTML解析、异步请求、防封锁策略以及数据清洗和验证等多个环节。在实际操作中,应根据项目需求和目标网站特性,灵活运用这些技术,同时...
爬虫,作为一种自动抓取网页信息的程序,被广泛用于数据挖掘、市场分析、搜索引擎优化等领域。然而,随着爬虫技术的发展,网站所有者也开始采取各种反爬虫策略以保护其数据安全和商业利益。本文将详细探讨反爬虫策略...
分布式网络爬虫是互联网数据采集的重要工具,它通过多个独立的爬虫节点协同工作,高效地抓取大规模网页信息。在网络游戏中,这种技术可以用于收集玩家行为数据、市场动态、游戏策略等信息,以支持数据分析、玩家行为...
抓取过程通常涉及设置爬虫规则,如URL列表、深度限制、抓取频率等,以确保有效而有序地遍历目标网站。 网站源码查看功能是另一个重要的方面,它允许用户查看并分析网页背后的HTML代码。这对于开发者来说尤其有用,...
网络爬虫设计是信息技术领域中一个重要的实践环节,主要用于自动化地从互联网上抓取大量信息。本篇文章将探讨网络爬虫设计的一些核心概念和策略,包括URL标准化、防止陷入网络陷阱、遵循漫游拒绝访问规则,以及两种...
在爬虫抓取到网页内容后,SearchManager会解析这些内容,查找并提取与预设关键词(_filterKeyWord)匹配的信息。这一步骤可能涉及到HTML解析,如使用Jsoup库来解析DOM结构,找到并提取含有特定关键词的元素。关键词...
注意 开源代码仅限技术分享交流,请充分尊重公众号作者的知识产权以及劳动成果,同时作为有... 微信的防作弊一直在不断更新完善,过于频繁的抓取可能导致微信账号被封禁,在需要大量抓取的任务请使用小号或者测试号进行
- 使用代理IP,以防IP被封,提高爬虫的生存能力。 总结来说,编写一个Python微博爬虫需要理解HTTP请求、HTML/JSON解析、模拟登录以及处理动态加载内容的方法。通过"2.微博爬虫.py"这个文件,我们可以学习到这些技巧...
网络爬虫是一种自动化程序,它能够遍历互联网上的网页,收集所需的信息。在这个项目中,我们重点关注的是特定领域的数据——医学知识,这些信息可能包括疾病症状、治疗方法、预防措施等。 在Java中实现网络爬虫,...
本次爬虫大会分享的内容涉及了爬虫技术的多个方面,包括爬虫的构建、数据的爬取、解析技术、存储解决方案以及应对网站防爬虫策略的措施。下面将对这些方面进行详细的知识点阐述。 首先,爬虫的构建是爬虫技术的基础...
防爬虫:KS-WAF(网站统一防护系统)将爬虫行为分为搜索引擎爬虫及扫描程序爬虫,可屏蔽特定的搜索引擎爬虫节省带宽和性能,也可屏蔽扫描程序爬虫,避免网站被恶意抓取页面。使用防爬虫机制的基本上是企业,我们平时...
这些代码可以帮助开发者理解如何在实际项目中应用这些防刷新和防过度抓取的策略,确保网站的安全性和稳定性。通过学习和实践这些脚本,开发者可以提升自己的PHP安全防护能力,保护网站免受恶意攻击。
在互联网的庞大生态系统中,搜索引擎扮演了至关重要的角色,它们通过爬虫(也称蜘蛛)程序自动地访问网站、索引内容,从而实现快速搜索和信息检索。作为网站管理员或内容创作者,了解哪些页面被搜索引擎爬取,以及被...