`
zhaohaolin
  • 浏览: 1018003 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

heritrix3 伪装成GOOGLE进行爬取

阅读更多

伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封
在crawler-beans.cxml 中修改metadata成下面

<!-- CRAWL METADATA: including identification of crawler/operator -->
 <bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName">
       <property name="operatorContactUrl" value="[see override above]"/>
       <property name="jobName" value="[see override above]"/>
       <property name="descrip蜘蛛的爬取原理tion" value="[see override above]"/>
  <!-- <property name="operator" value=""/> -->
  <!-- <property name="operatorFrom" value=""/> -->
  <!-- <property name="organization" value=""/> -->
  <!-- <property name="audience" value=""/> -->
      <property name="userAgentTemplate"
         value="Mozilla/5.0 (compatible; Googlebot/2.1; +@OPERATOR_CONTACT_URL@) "/>
 </bean>

伪装Googlebot。许多网站访问时需要注册,但用Google、Baidu等搜索引擎搜索时却可以搜索到全文。这是因为网站对访问者的 User Agent进行了判断,如果是bot,则允许其访问;如果是一般用户,则自动跳转到登陆页面。用User Agent Switcher就可以把自己伪装成Googlebot,进而不用注册也可以访问这些网站。

那么我们也可以伪装成搜索引擎来进入这些页面。我们需要的是修改浏览器的User-Agent
值。

分享到:
评论

相关推荐

    扩展Heritrix3指定链接爬取

    在网上找了许多关于Heritrix的资源,但是关于新版本heritrix3的资源很少,最近由于项目需要,认真读了heritrix的源码,扩展了Heritrix3指定链接提取,内容详细,可以在实际中使用。

    Heritrix3手册翻译

    总的来说,Heritrix 3 是一个强大且灵活的网络爬虫工具,适合进行大规模的网页抓取任务。它的设计考虑了可扩展性和易用性,尽管存在一些限制,但随着版本的更新,这些问题有望得到解决。对于那些需要深入研究和定制...

    扩展Heritrix3指定内容提取.pdf

    标题中提到的“扩展Heritrix3指定内容提取”意味着本文档...这些知识点涵盖了Heritrix3扩展内容提取的主要方面,对于希望深入了解和应用Heritrix3进行网页数据抓取和信息提取的用户来说,这些知识具有重要的指导意义。

    heritrix3种子载入方式

    早期版本需要将所有种子加载到内存中,而Heritrix3将种子分批次写入硬盘,通过调度器进行管理。这一改进大大提高了种子载入的灵活性,同时也解决了因种子数量过多而可能引起的内存溢出问题。 Heritrix3种子载入方式...

    Heritrix3-可扩展web级别的Java爬虫项目

    3. **配置管理**:Heritrix3通过XML配置文件定义爬虫的行为,包括种子URL、爬取深度、排除规则、数据存储方式等。用户可以通过修改配置文件来调整爬虫的策略。 4. **内容处理**:Heritrix3不仅支持HTML页面的抓取,...

    heritrix-3

    2. **heritrix-3.2.0-src.tar.gz**:这是Heritrix 3的源代码包,适合开发人员进行二次开发或调试。如果你想要修改Heritrix的源代码或者想要深入理解其工作原理,这个文件是必不可少的。使用这个文件,你可以通过编译...

    heritrix爬虫安装部署

    3. **创建爬取任务**: - 在WebUI中创建一个新的爬取任务。 - 配置爬取任务的相关参数,如种子URL、爬取深度等。 4. **监控任务进度**: - 通过WebUI监控爬取任务的实时进度。 - 查看爬取到的数据和日志信息。 ##...

    heritrix源码

    3. **配置与策略**:Heritrix通过XML配置文件定义爬取行为,如设置种子URL、选择爬取策略、过滤规则等。策略可以定制,比如深度优先、广度优先、基于链接关系的爬取等。 4. **链接管理**:Heritrix使用Crawler-...

    网络爬虫Heritrix1.14.4可直接用

    3. **Heritrix运行与配置**:在`Heritrix1/src/org/archive/crawler/Heritrix.java`文件中启动Heritrix后,服务会在本地的8089端口监听。通过访问`https://localhost:8089`,我们可以使用内置的Web管理界面进行配置...

    Heritrix 3.x 用户手册

    Heritrix 3.x 提供API指南,方便开发者进行更深层次的集成和扩展,支持多机器分布式爬取,进一步提高爬取效率。 总之,Heritrix 3.x 是一个强大的工具,用于大规模、合规的网络数据采集,适用于学术研究、数据分析...

    heritrix3 实例

    在实际应用中,Heritrix 3 的强大之处在于其灵活性和可扩展性,能够处理复杂的爬取任务,包括登录抓取、动态内容抓取、多线程爬取等。因此,掌握Heritrix 3 的使用对于从事网络数据采集和分析的人员来说是非常有价值...

    heritrix3淘宝搜索食品店首页连接提取

    本文通过一个淘宝信息提取的实例来说明怎么扩展heritrix3

    Heritrix用户手册

    35. **Heritrix 3.x API指南**:对于开发者来说,API指南提供了与Heritrix进行交互的编程接口信息。 通过遵循这份用户手册,用户可以有效地利用Heritrix进行大规模的网络抓取任务,同时了解如何维护和优化其运行...

    heritrix1.14.0jar包

    3. **lib**:存放jar包,这是Heritrix运行的基础,包括了Heritrix自身的类库和其他依赖的第三方库,如Apache Commons、log4j等。 4. **src**:源代码目录,虽然用户可能不会直接修改,但有助于理解Heritrix的内部...

    Heritrix-User-Manual.rar_heritrix

    Heritrix的核心设计理念是模块化和可配置性,允许用户根据需求调整爬取策略。 2. **安装Heritrix**: 安装Heritrix通常涉及下载源代码、构建项目、配置环境变量和启动服务。首先,你需要在Java运行环境中安装...

    Heritrix搭建好的工程

    Heritrix的配置主要通过XML文件进行,这些文件定义了爬取行为的方方面面,如种子URL、抓取策略、排除规则等。例如,“crawldb.xml”用于定义数据库设置,“fetcher.xml”则包含了下载器的相关配置。在Eclipse中,...

    heritrix-3.4.0-SNAPSHOT-dist.zip

    2. **深度遍历**:Heritrix可以深度遍历网站,根据设定的规则抓取整个网站或部分页面,支持按照URL模式、链接关系或其他条件进行爬取。 3. **爬取策略**:用户可以通过XML配置文件定义爬取策略,比如设置爬取速度、...

    heritrix 3.1

    在类之间,Heritrix使用依赖注入(Dependency Injection)模式进行通信。例如,`Crawler`实例化时会注入`Seeder`、`Fetcher`和`Parser`等对象,这些对象再根据各自的职责进行协作。这种设计使得系统更灵活,方便扩展...

    Heritrix安装详细过程

    本节将详细介绍如何在Eclipse环境中搭建Heritrix,并进行必要的配置,以便能够顺利地启动Heritrix并执行抓取任务。 ##### 2.1 在Eclipse中搭建MyHeritrix工程 1. **新建Java工程** 在Eclipse中新建一个名为`...

    Heritrix爬虫框架 完整版

    3. **多线程处理**:Heritrix支持多线程爬取,能同时处理多个连接,提高了爬取效率,尤其是在处理大量网页时。 4. **元数据管理**:Heritrix能够收集并存储关于抓取内容的元数据,如HTTP响应头、网页编码、抓取时间...

Global site tag (gtag.js) - Google Analytics