heritrix3 伪装成GOOGLE进行爬取

zhaohaolin

浏览: 1036200 次
性别:
来自: 杭州

最近访客更多访客>>

bfs198

ymitxiavj

xuming_1980

bianrongxin

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Heritrix

Google 搜索引擎 Bean 浏览器

伪装成搜索引擎蜘蛛google bot访问需网站, 这样能防止爬虫被封
在crawler-beans.cxml 中修改metadata成下面

<!-- CRAWL METADATA: including identification of crawler/operator -->
 <bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName">
       <property name="operatorContactUrl" value="[see override above]"/>
       <property name="jobName" value="[see override above]"/>
       <property name="descrip蜘蛛的爬取原理tion" value="[see override above]"/>
  <!-- <property name="operator" value=""/> -->
  <!-- <property name="operatorFrom" value=""/> -->
  <!-- <property name="organization" value=""/> -->
  <!-- <property name="audience" value=""/> -->
      <property name="userAgentTemplate"
         value="Mozilla/5.0 (compatible; Googlebot/2.1; +@OPERATOR_CONTACT_URL@) "/>
 </bean>

伪装Googlebot。许多网站访问时需要注册，但用Google、Baidu等搜索引擎搜索时却可以搜索到全文。这是因为网站对访问者的 User Agent进行了判断，如果是bot，则允许其访问；如果是一般用户，则自动跳转到登陆页面。用User Agent Switcher就可以把自己伪装成Googlebot，进而不用注册也可以访问这些网站。

那么我们也可以伪装成搜索引擎来进入这些页面。我们需要的是修改浏览器的User-Agent
值。

分享到：

使用java模拟登陆百度 | Heritrix3.0教程源码分析(一) Heritrix ...

2011-05-09 23:27
浏览 1998
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix3 伪装成GOOGLE进行爬取

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix3 伪装成GOOGLE进行爬取

评论

发表评论

相关推荐

Heritrix3.0教程 源码分析(一) Heritrix 3.0新特性新功能介绍

Heritrix3.0教程 使用入门(四) 载入种子的四种方式

Heritrix3.0教程 使用教程(三) CrawlJob控制台界面(一) 大概介绍

Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍

Heritrix3.0教程 使用入门(二) 开始抓取

Heritrix3.0教程 使用入门(一) 下载安装与运行

heritrix配置篇

驯服爬虫 Heritrix

最近访客更多访客>>

Heritrix3.0教程源码分析(一) Heritrix 3.0新特性新功能介绍

Heritrix3.0教程使用入门(四) 载入种子的四种方式

Heritrix3.0教程使用教程(三) CrawlJob控制台界面(一) 大概介绍

Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍

Heritrix3.0教程使用入门(二) 开始抓取

Heritrix3.0教程使用入门(一) 下载安装与运行