`
liuxinglanyue
  • 浏览: 562587 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

抓取防爬虫的网站信息

阅读更多

有的网站限制网络爬虫的抓取,例如javaeye。会出现错误提示: 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    <meta name="keyword" content="JavaEye,IT,开发,交流,社区,java, ruby, ajax, agile" />
    <title>您的访问请求被拒绝 - JavaEye技术社区</title>
    <style type="text/css">
      .clearfix:after {
        content: ".";
        display: block;
        height: 0;
        clear: both;
        visibility: hidden;
      }
      .clearfix {
        display:block;
      }
      .left {
        float: left;
      }
      h1 {font-size: 20px;color: #6293BB;}
      p  {font-size: 14px;color: #6293BB;}
    </style>
  </head>
  <body>
    <div style="padding:50px 0 0 300px">
      <h1>您的访问请求被拒绝</h1>
    </div>
    <div class="clearfix">
      <div class="left" style="padding-left:120px">
        <img src="/images/filenotfound.jpg" width="128" height="128" />
      </div>
      <div class="left" style="width:700px;padding:30px 0 0 30px">
        <p>您可能使用了网络爬虫抓取JavaEye网站页面!</p>
        <p>JavaEye网站不允许您使用网络爬虫对JavaEye进行恶意的网页抓取,请您立刻停止该抓取行为!</p>
        <p>如果您的网络爬虫不属于恶意抓取行为,希望JavaEye网站允许你进行网页抓取,请和JavaEye管理员联系,取得授权: webmaster<img src='/images/email.gif' alt="Email" />support.iteye.com</p>
        <p>如果您确实使用浏览器访问,但是被错误的识别为网络爬虫,请将您浏览器发送的“User Agent”信息告知我们,帮助我们解决错误: webmaster<img src='/images/email.gif' alt="Email" />support.iteye.com</p>
      </div>
    </div>
    <div style="padding:20px 0 0 500px">
      <a href="http://www.iteye.com"><img src='/images/logo_small.gif' border='0'></a>
    </div>
  </body>
</html>

 不过可以设置下链接的参数。

URL url=new URL(pathString); 
    URLConnection con=url.openConnection(); 
    con.setDoOutput(true); 
    con.setRequestProperty("User-Agent", ""); 

 加上上面红色的一句,就可以了。 
    或者使用httpclient是,添加 

 

 

HttpClient httpClient=new HttpClient(); 
   httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(50000); 
    httpClient.getParams().setParameter(HttpMethodParams.USER_AGENT,"Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) Gecko/20090803 Fedora/3.5"); 

 这样就可以了。

转:http://gbfd2012.iteye.com/blog/732227

 

分享到:
评论

相关推荐

    京东商城商品信息爬取_爬虫_京东_

    京东商城商品信息爬取是这个项目的核心,它的目标是从京东商城的网站上抓取商品的相关信息,然后进行数据分析,以便于构建一个类似功能的商城网站。在这个过程中,我们需要掌握以下几个关键知识点: 1. **网络爬虫...

    网盘爬虫网站源码

    这个“网盘搜索引擎源码--www.quzhuanpanpan.com”项目提供了一个实际的参考示例,可以帮助开发者了解并学习如何构建这样一个网站,包括爬虫的编写、数据处理、网站开发等多个环节。对于想要涉足网络爬虫和网站开发...

    springboot爬虫

    接着,我们要建立一个爬虫的核心部分,即网络请求模块。SpringBoot可以通过`RestTemplate`或更现代的`WebClient`(Spring WebFlux的一部分)进行HTTP请求。在这个案例中,我们可以使用`RestTemplate`来抓取视频链接...

    抓取网页上的Email地址

    综上所述,"抓取网页上的Email地址"涉及的技术包括正则表达式、网络爬虫技术、HTML解析、异步请求、防封锁策略以及数据清洗和验证等多个环节。在实际操作中,应根据项目需求和目标网站特性,灵活运用这些技术,同时...

    网络爬虫新浪微博抓取

    在社交媒体领域,特别是像新浪微博这样的大型平台,网络爬虫的应用显得尤为重要。本文将深入探讨网络爬虫如何在新浪微博数据抓取中发挥作用,以及实现这一过程所需的关键技术和注意事项。 首先,我们需要理解微博...

    爬虫设计文档 关于网络爬虫设计的文档

    网络爬虫设计是信息技术领域中一个重要的实践环节,主要用于自动化地从互联网上抓取大量信息。本篇文章将探讨网络爬虫设计的一些核心概念和策略,包括URL标准化、防止陷入网络陷阱、遵循漫游拒绝访问规则,以及两种...

    反爬虫策略反爬虫手段

    爬虫,作为一种自动抓取网页信息的程序,被广泛用于数据挖掘、市场分析、搜索引擎优化等领域。然而,随着爬虫技术的发展,网站所有者也开始采取各种反爬虫策略以保护其数据安全和商业利益。本文将详细探讨反爬虫策略...

    抓取预警信息(全国数据10分钟更新一次).zip

    标题中的“抓取预警信息(全国数据10分钟更新一次).zip”表明这是一个与实时气象预警信息抓取相关的项目,其中的数据每10分钟进行一次全国范围的更新。这通常涉及到网络爬虫技术,用于从指定的气象网站或者API接口...

    简单的爬虫系统

    一个完整的爬虫系统通常还包括其他模块,如网络请求模块(如使用HttpURLConnection或OkHttp进行网页下载)、线程管理(控制爬虫的并发程度,防止对服务器造成过大的压力)、数据存储(如保存抓取结果到数据库或文件...

    一个用java实现的抓取网站程序

    本项目是一个基于Java实现的网站抓取程序,利用多线程技术和HTML解析技术,同时具备防屏蔽功能,以高效、稳定的方式从目标网站获取数据。 首先,我们要理解Java在编程中的地位。Java是一种跨平台的面向对象的编程...

    知乎爬虫(知乎网站爬取工具,爬取知乎网页内容)

    在IT领域,网络爬虫是一种常见的技术,用于自动地遍历和抓取互联网上的信息。在本案例中,我们关注的是一个特定的爬虫,即针对知乎网站的爬虫。知乎是一个知名的中文在线问答社区,汇聚了众多领域的专家和用户,分享...

    网站资源抓取工具,网站源码下载查看工具

    SEO专家则通过抓取和分析竞争对手的网站,了解他们的关键词策略和优化方法;此外,这些工具也用于合规性检查,如版权侵权检测或隐私政策评估。 总的来说,网站资源抓取工具和源码查看工具是IT专业人士和研究人员不...

    百度知道医学知识的抓取并存储_java_

    首先,我们要了解的是网络爬虫的基本概念。网络爬虫是一种自动化程序,它能够遍历互联网上的网页,收集所需的信息。在这个项目中,我们重点关注的是特定领域的数据——医学知识,这些信息可能包括疾病症状、治疗方法...

    2018 _爬虫大会PDF免费下载

    本次爬虫大会分享的内容涉及了爬虫技术的多个方面,包括爬虫的构建、数据的爬取、解析技术、存储解决方案以及应对网站防爬虫策略的措施。下面将对这些方面进行详细的知识点阐述。 首先,爬虫的构建是爬虫技术的基础...

    分布式网络爬虫系统的研究现状.pdf

    4. 网页抓取的法律和道德问题:网络爬虫必须遵守相关法律法规和网站Robots.txt协议,尊重网站的版权和隐私政策。在设计和实施爬虫时,必须确保其行为符合法律要求并尊重用户隐私。 5. 可扩展性与负载均衡:分布式...

    [详细完整版]爬虫基本知识.pdf

    爬虫的自动化特性使其在信息检索、市场分析、网站监控等领域有着广泛的应用。它们可以抓取网页的内容,包括文本、图片、链接等,并且可以根据需要处理和存储这些数据。虽然还有其他名字如蚂蚁、自动索引、模拟程序或...

    基于python的聚焦网络爬虫数据采集系统设计与实现.pdf

    在网络爬虫的设计与实现中,需要考虑的关键技术包括网页分析算法、爬虫的遍历策略、数据抓取和解析技术等。网页分析算法是指导爬虫如何从网页中提取信息的核心技术,它决定了爬虫的聚焦程度和信息检索的准确性。遍历...

    基于python网络爬虫的浏览器伪装技术探讨.pdf

    接下来,文章分析了网站用来防御爬虫的“反触机制”,包括但不限于检测访问行为、使用动态页面、分析请求头信息等方法。为了通过这些反爬机制,爬虫需要采取相应的措施,如经常更换代理服务器的IP地址、使用selenium...

    利用php抓取蜘蛛爬虫痕迹的示例代码

    在示例代码中,作者首先定义了一个名为`isSpider()`的函数,该函数用于识别当前访问者的用户代理(User Agent)字符串是否与已知的搜索引擎爬虫的用户代理字符串匹配。这是一个常见的方法,因为每个爬虫都会在访问...

Global site tag (gtag.js) - Google Analytics