很多网站都有多语言版本,站长往往希望baidu爬虫爬中文页面,而google爬虫爬英文页面。于是,如果网站如以nginx做前端的话,站长往往会在nginx.conf中设置http头的accept-language,让爬虫重定向到指定语言页面进行抓取。但是事与愿违,google和baidu爬虫不设置http头的accept-language,导致爬虫抓取的是web.xml指定的默认页面。这样,baidu抓取中文页面,google抓取英文页面就无法同时达到。
http://www.findmaven.net 是博主的网站,是一个findjar和findmaven的搜索引擎,可以根据class名或者jar名找到包含它的jar和maven gav,以这个网站打比方
博主这样设置
1)网站的web.xml中默认页面还是设置为index_en.jsp英文页面
2)设置nginx的user_agent
if ($http_user_agent ~* (baidu|360|sogou)){
set $lang "/index_cn.jsp";
}
如果是baidu,360,sogou爬虫的话,重定向到index_en.jsp抓取中文页面;如果是google爬虫,则抓取默认页面index_en.jsp英文页面
设置后结果如下
相关推荐
5. **蜘蛛类型**:区分不同搜索引擎的爬虫,例如Googlebot、Bingbot和Baiduspider,以了解各搜索引擎对网站的重视程度。 6. **热门页面**:找出被爬虫频繁访问的页面,这可能是网站的重要内容或受欢迎的部分,应...
在SEO(搜索引擎优化)工作中,了解搜索引擎蜘蛛爬虫的行为至关重要,因为这有助于优化网站的索引和...定期分析这些数据可以帮助识别潜在问题,如爬虫访问频率过高导致服务器负载过大,或者某些页面未被正确抓取等。
1. 爬虫识别:程序可以识别多种主流搜索引擎的爬虫,包括Google、Bing、Baidu、Sogou等,并对每种爬虫的访问行为进行单独统计。 2. 访问统计:统计每个爬虫的访问次数、抓取页面数量,以及访问频率,帮助分析爬虫的...
1. **蜘蛛分析**:这个功能能够详细展示不同搜索引擎爬虫(如百度、Google等)的访问情况。它提供了概要分析,包括每个爬虫的访问次数、停留时间以及抓取的页面数量。此外,还可以分析目录抓取和页面抓取,帮助你...
搜索引擎是互联网信息检索的核心工具,如Google、百度等。它们通过爬虫技术抓取网页,然后使用索引技术快速定位用户查询的相关信息。搜索引擎的工作流程包括爬取、预处理、索引和检索四个步骤,其中关键在于如何...
搜索引擎如Google、Bing和Baidu,通过爬虫技术抓取Web上的信息,建立索引,帮助用户快速找到所需内容。SEO(搜索引擎优化)是网站管理员用来提高其网站在搜索结果中排名的技术和策略。 **8. Web应用程序** Web应用...