很多网站都有多语言版本,站长往往希望baidu爬虫爬中文页面,而google爬虫爬英文页面。于是,如果网站如以nginx做前端的话,站长往往会在nginx.conf中设置http头的accept-language,让爬虫重定向到指定语言页面进行抓取。但是事与愿违,google和baidu爬虫不设置http头的accept-language,导致爬虫抓取的是web.xml指定的默认页面。这样,baidu抓取中文页面,google抓取英文页面就无法同时达到。
http://www.findmaven.net 是博主的网站,是一个findjar和findmaven的搜索引擎,可以根据class名或者jar名找到包含它的jar和maven gav,以这个网站打比方
博主这样设置
1)网站的web.xml中默认页面还是设置为index_en.jsp英文页面
2)设置nginx的user_agent
if ($http_user_agent ~* (baidu|360|sogou)){
set $lang "/index_cn.jsp";
}
如果是baidu,360,sogou爬虫的话,重定向到index_en.jsp抓取中文页面;如果是google爬虫,则抓取默认页面index_en.jsp英文页面
设置后结果如下
相关推荐
- **多语言版本切换**:在多语言网站中,用户选择不同语言版本后,可以通过`refresh`自动跳转至相应语言版本的页面。 #### 五、注意事项 1. **SEO影响**:虽然`refresh`跳转在用户体验上表现良好,但对于搜索引擎...
1. **Iptables地址转换**:首先需要在Iptables中设置规则,让LVS将流量重定向至专门用于维护的Nginx实例。 2. **Nginx配置**:配置专门的Nginx实例用于显示维护页面,并且根据不同的域名匹配不同的维护页面。 #### ...
**Nginx实战:基于Lua语言的配置、开发与架构详解** 在现代Web服务领域,Nginx以其高性能、轻量级以及强大的反向代理和负载均衡能力而备受青睐。结合Lua语言,Nginx可以进一步提升其灵活性和功能扩展性,实现更复杂...
Nginx判断来路http://aaaa.com查询语句是否包含有Q=**,重写到https://xxxx.com/?Q=**
**Nginx-Index索引页面** 在Nginx服务器配置中,`index`指令用于定义默认的索引页面,当用户访问一个目录时,如果该目录下存在这个指定的索引文件,Nginx会自动加载并显示该页面,而无需用户手动输入文件名。这极大...
在Windows系统中,为了确保Nginx服务器在每次开机时都能自动启动,我们可以利用特定的工具,例如"WinSW-x64"。WinSW(Windows Service Wrapper)是一个开源项目,它允许将任何可执行文件作为Windows服务来运行,包括...
如何在nginx中限制恶意网络爬虫抓取内容呢?也就是限制下恶意爬虫的抓取频率。下面来一起看看。 今天在微博发现@金荣叶 的处理方法很灵活,可以动态设定一个爬虫的频率,达到减轻服务器负载,并且不至于封杀爬虫。 ...
本教程将详细介绍如何在有网络连接的环境中,一步步安装Nginx并设置其开机自启,适用于Linux的新手用户。 首先,你需要将Nginx的源代码包(例如:nginx-1.18.0.tar.gz)上传到服务器的/usr/local目录下。这通常可以...
配置Nginx以区分PC或手机访问不同的域名,是网站开发和运维中常见的需求,用于提供更为个性化的用户体验,尤其是在响应式网站设计和移动优先策略中具有重要意义。 本文首先介绍了基于HTTP_USER_AGENT来区分不同设备...
在Windows环境下设置Nginx服务是一项常见的任务,尤其对于那些希望在本地或服务器上运行Web应用的开发者来说。Nginx是一款高性能的HTTP和反向代理服务器,以其稳定性、高效性和灵活性著称。本文将详细讲解如何在...
在我们的示例中,我们使用了 Nginx 1.4.3 版本,下载并解压缩 Nginx 压缩包,进入 Nginx 目录,并修改 nginx.conf 文件。注意,在修改 nginx.conf 文件时,我们需要将 `/home/www/html` 目录指定为 PHP 主机上的目录...
FastCGI是Nginx的一个扩展模块,允许我们使用PHP、Python等语言来编写Web应用程序。在这个例子中,我们使用`include`指令来包含FastCGI的配置文件`fastcgi.conf`。在这个文件中,我们可以指定FastCGI的监听端口、套...
代码如下: #全局配置 limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m; #某个server中 limit_req zone=anti_spider burst=30 nodelay; ... ...超过设置的限定频率,就...附:nginx中禁止屏蔽网络爬虫 代码如
Nginx日志分析工具是SEO优化过程中至关重要的一环,对于网站管理员而言,它能够提供宝贵的洞察力,帮助他们理解搜索引擎如何与他们的网站互动,尤其是百度蜘蛛的抓取行为。Nginx作为一款广泛使用的高性能Web服务器,...
#禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA为空的访问 if ($http_user_agent ~ WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|...
4. `lua-nginx-module-0.9.6.tar.gz`: 如前所述,这是Nginx的Lua模块,让我们能在Nginx配置中使用Lua脚本。 5. `echo-nginx-module-0.52.tar.gz`: 提供了Nginx中的高级输出控制功能,如延迟发送、拼接字符串等,有...
1.13.9是Nginx的一个版本号,不同版本可能包含不同的功能和性能优化。 5. **gcc-c++** 和 **gcc**:GCC(GNU Compiler Collection)是GNU项目的一部分,提供了一套包括C、C++、Objective-C、Fortran、Ada和Go等多种...
Nginx优化404报错页面 Nginx是一款流行的开源Web服务器软件,它提供了强大的功能和灵活的配置项,以满足不同的应用场景需求。但是,在生产环境中,如何优化404报错页面是一个非常重要的问题。本文将详细介绍如何...
**Nginx简介** Nginx 是一款高性能的 Web 和反向代理服务器,以其轻量级、高并发处理能力和稳定性而著称。它被广泛应用于网站的静态资源服务、动态内容转发以及负载均衡等场景。 **下载与安装** 在本文中,你将...