`

设置nginx让baidu,google等爬虫抓取不同语言的页面

 
阅读更多

很多网站都有多语言版本,站长往往希望baidu爬虫爬中文页面,而google爬虫爬英文页面。于是,如果网站如以nginx做前端的话,站长往往会在nginx.conf中设置http头的accept-language,让爬虫重定向到指定语言页面进行抓取。但是事与愿违,google和baidu爬虫不设置http头的accept-language,导致爬虫抓取的是web.xml指定的默认页面。这样,baidu抓取中文页面,google抓取英文页面就无法同时达到。

http://www.findmaven.net 是博主的网站,是一个findjar和findmaven的搜索引擎,可以根据class名或者jar名找到包含它的jar和maven gav,以这个网站打比方

findjar和findmaven的搜素引擎

 

博主这样设置

1)网站的web.xml中默认页面还是设置为index_en.jsp英文页面

 

2)设置nginx的user_agent

if ($http_user_agent ~* (baidu|360|sogou)){

       set $lang "/index_cn.jsp";

 }

如果是baidu,360,sogou爬虫的话,重定向到index_en.jsp抓取中文页面;如果是google爬虫,则抓取默认页面index_en.jsp英文页面

 

 

设置后结果如下

 

 

 



 

 

  • 大小: 112.2 KB
  • 大小: 152.8 KB
分享到:
评论

相关推荐

    网站搜索引擎蜘蛛爬虫日志分析

    5. **蜘蛛类型**:区分不同搜索引擎的爬虫,例如Googlebot、Bingbot和Baiduspider,以了解各搜索引擎对网站的重视程度。 6. **热门页面**:找出被爬虫频繁访问的页面,这可能是网站的重要内容或受欢迎的部分,应...

    Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为

    在SEO(搜索引擎优化)工作中,了解搜索引擎蜘蛛爬虫的行为至关重要,因为这有助于优化网站的索引和...定期分析这些数据可以帮助识别潜在问题,如爬虫访问频率过高导致服务器负载过大,或者某些页面未被正确抓取等。

    一款php蜘蛛统计小程序

    1. 爬虫识别:程序可以识别多种主流搜索引擎的爬虫,包括Google、Bing、Baidu、Sogou等,并对每种爬虫的访问行为进行单独统计。 2. 访问统计:统计每个爬虫的访问次数、抓取页面数量,以及访问频率,帮助分析爬虫的...

    爱站seo工具包之日志分析工具怎么用.docx

    1. **蜘蛛分析**:这个功能能够详细展示不同搜索引擎爬虫(如百度、Google等)的访问情况。它提供了概要分析,包括每个爬虫的访问次数、停留时间以及抓取的页面数量。此外,还可以分析目录抓取和页面抓取,帮助你...

    电子商务 服务器的源程序 交友系统 搜索引擎 网站搜索

    搜索引擎是互联网信息检索的核心工具,如Google、百度等。它们通过爬虫技术抓取网页,然后使用索引技术快速定位用户查询的相关信息。搜索引擎的工作流程包括爬取、预处理、索引和检索四个步骤,其中关键在于如何...

    万维网

    搜索引擎如Google、Bing和Baidu,通过爬虫技术抓取Web上的信息,建立索引,帮助用户快速找到所需内容。SEO(搜索引擎优化)是网站管理员用来提高其网站在搜索结果中排名的技术和策略。 **8. Web应用程序** Web应用...

Global site tag (gtag.js) - Google Analytics