设置nginx让baidu,google等爬虫抓取不同语言的页面 - a_jie1981 - ITeye博客

`

a_jie1981

浏览: 40522 次
性别:
来自: 上海

最近访客更多访客>>

caydenliu

A208JASON

wangyi03

qq_15644773

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

mikzhang：求分享源码, 或者不吝发送到我邮箱(zhran163@163. ...
一个高仿eclipse的网页展示JAVA源代码

设置nginx让baidu,google等爬虫抓取不同语言的页面

博客分类：

java
ngnix

阅读更多

很多网站都有多语言版本，站长往往希望baidu爬虫爬中文页面，而google爬虫爬英文页面。于是，如果网站如以nginx做前端的话，站长往往会在nginx.conf中设置http头的accept-language，让爬虫重定向到指定语言页面进行抓取。但是事与愿违，google和baidu爬虫不设置http头的accept-language，导致爬虫抓取的是web.xml指定的默认页面。这样，baidu抓取中文页面，google抓取英文页面就无法同时达到。

http://www.findmaven.net 是博主的网站，是一个findjar和findmaven的搜索引擎，可以根据class名或者jar名找到包含它的jar和maven gav，以这个网站打比方

findjar和findmaven的搜素引擎

博主这样设置

1）网站的web.xml中默认页面还是设置为index_en.jsp英文页面

2）设置nginx的user_agent

if ($http_user_agent ~* (baidu|360|sogou)){

set $lang "/index_cn.jsp";

}

如果是baidu,360,sogou爬虫的话，重定向到index_en.jsp抓取中文页面；如果是google爬虫，则抓取默认页面index_en.jsp英文页面

设置后结果如下

查看图片附件

分享到：

如何最方便的查看javadoc | nginx操作cookie使测试IP不写入access.log

2014-02-22 13:10
浏览 2845
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

网站搜索引擎蜘蛛爬虫日志分析: 5. **蜘蛛类型**：区分不同搜索引擎的爬虫，例如Googlebot、Bingbot和Baiduspider，以了解各搜索引擎对网站的重视程度。 6. **热门页面**：找出被爬虫频繁访问的页面，这可能是网站的重要内容或受欢迎的部分，应...

Linux/Nginx如何查看搜索引擎蜘蛛爬虫的行为: 在SEO（搜索引擎优化）工作中，了解搜索引擎蜘蛛爬虫的行为至关重要，因为这有助于优化网站的索引和...定期分析这些数据可以帮助识别潜在问题，如爬虫访问频率过高导致服务器负载过大，或者某些页面未被正确抓取等。

一款php蜘蛛统计小程序: 1. 爬虫识别：程序可以识别多种主流搜索引擎的爬虫，包括Google、Bing、Baidu、Sogou等，并对每种爬虫的访问行为进行单独统计。 2. 访问统计：统计每个爬虫的访问次数、抓取页面数量，以及访问频率，帮助分析爬虫的...

爱站seo工具包之日志分析工具怎么用.docx: 1. **蜘蛛分析**：这个功能能够详细展示不同搜索引擎爬虫（如百度、Google等）的访问情况。它提供了概要分析，包括每个爬虫的访问次数、停留时间以及抓取的页面数量。此外，还可以分析目录抓取和页面抓取，帮助你...

电子商务服务器的源程序交友系统搜索引擎网站搜索: 搜索引擎是互联网信息检索的核心工具，如Google、百度等。它们通过爬虫技术抓取网页，然后使用索引技术快速定位用户查询的相关信息。搜索引擎的工作流程包括爬取、预处理、索引和检索四个步骤，其中关键在于如何...

万维网: 搜索引擎如Google、Bing和Baidu，通过爬虫技术抓取Web上的信息，建立索引，帮助用户快速找到所需内容。SEO（搜索引擎优化）是网站管理员用来提高其网站在搜索结果中排名的技术和策略。 **8. Web应用程序** Web应用...

Global site tag (gtag.js) - Google Analytics