`
jsczxy2
  • 浏览: 1277728 次
  • 性别: Icon_minigender_1
  • 来自: 常州
文章分类
社区版块
存档分类
最新评论

nginx中禁止屏蔽网络爬虫

阅读更多
server {
        listen       80;
        server_name  www.xxx.com;

        #charset koi8-r;

        #access_log  logs/host.access.log  main;

        #location / {
        #    root   html;
        #    index  index.html index.htm;
        #}
	if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") {
                return 403;
        }

	location ~ ^/(.*)$ {
             	proxy_pass http://localhost:8080;
		proxy_redirect          off;
		proxy_set_header        Host $host;
		proxy_set_header        X-Real-IP $remote_addr;
		proxy_set_header       X-Forwarded-For   $proxy_add_x_forwarded_for;
		client_max_body_size    10m;
		client_body_buffer_size 128k;
		proxy_connect_timeout   90;
		proxy_send_timeout      90;
		proxy_read_timeout      90;
		proxy_buffer_size       4k;
		proxy_buffers           4 32k;
		proxy_busy_buffers_size 64k;
		proxy_temp_file_write_size 64k;
	}
	
        #error_page  404              /404.html;

        # redirect server error pages to the static page /50x.html
        #
        error_page   500 502 503 504  /50x.html;
        location = /50x.html {
            root   html;
        }

        # proxy the PHP scripts to Apache listening on 127.0.0.1:80
        #
        #location ~ \.php$ {
        #    proxy_pass   http://127.0.0.1;
        #}

        # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
        #
        #location ~ \.php$ {
        #    root           html;
        #    fastcgi_pass   127.0.0.1:9000;
        #    fastcgi_index  index.php;
        #    fastcgi_param  SCRIPT_FILENAME  /scripts$fastcgi_script_name;
        #    include        fastcgi_params;
        #}

        # deny access to .htaccess files, if Apache's document root
        # concurs with nginx's one
        #
        #location ~ /\.ht {
        #    deny  all;
        #}
    }
  可以用 curl 测试一下

curl -I -A "qihoobot" www.xxx.com

分享到:
评论

相关推荐

    Nginx服务器屏蔽与禁止屏蔽网络爬虫的方法

    在处理网络爬虫的策略中,Nginx可以用来限制或禁止特定爬虫的访问,以保护服务器资源和数据安全。以下是关于Nginx服务器屏蔽与禁止屏蔽网络爬虫的方法的详细说明: 首先,我们可以通过Nginx的配置文件来识别并阻止...

    Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例

    代码如下: #全局配置 limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m; #某个server中  limit_req zone=anti_spider burst=30 nodelay; ... ...超过设置的限定频率,就...附:nginx中禁止屏蔽网络爬虫 代码如

    Web应用安全:Nginx禁止目录列出配置实验.doc

    在本实验中,我们将学习如何在 Nginx 服务器上禁止目录列出配置,以防止目录遍历攻击。目录遍历攻击是一种常见的 Web 应用安全漏洞,攻击者可以通过该漏洞获取服务器上的敏感信息。 实验目的: * 熟悉 Nginx ...

    服务器修改nginx配置,有效禁止无用爬虫专用资源

    在IT行业中,服务器管理和网络爬虫的控制是两个重要的领域。`nginx`作为一个高性能的HTTP和反向代理服务器,常用于处理高并发访问,并且在防止恶意或无用爬虫占用资源方面扮演着重要角色。本篇文章将详细介绍如何...

    nginx修改配置限制恶意爬虫频率

    如何在nginx中限制恶意网络爬虫抓取内容呢?也就是限制下恶意爬虫的抓取频率。下面来一起看看。 今天在微博发现@金荣叶 的处理方法很灵活,可以动态设定一个爬虫的频率,达到减轻服务器负载,并且不至于封杀爬虫。 ...

    Web应用安全:Nginx禁止目录列出配置.pptx

    Nginx默认情况下可能会开启"autoindex on"选项,这允许Nginx在用户请求一个目录而不是具体文件时,自动生成并显示该目录中的文件列表。这一功能在某些场景下是有用的,但如果没有适当的权限控制,它就成为了一个潜在...

    Nginx 中文官方手册.CHM

    Nginx 中文官方手册.CHM

    Nginx中http请求处理过程

    Nginx 是一个流行的开源 Web 服务器软件,广泛应用于 Web 开发和生产环境中。理解 Nginx 中 HTTP 请求处理过程对于提高网站性能和可靠性至关重要。在本文中,我们将详细介绍 Nginx 中 HTTP 请求处理过程的整个流程。...

    nginx屏蔽指定接口(URL)的操作方式

    上述配置中的`$http_referer`是Nginx中的一个内置变量,用来存放HTTP请求头中的Referer字段的值。当HTTP请求的Referer字段符合正则表达式`***`时,请求会被拒绝。 需要注意的是,在生产环境中修改Nginx配置时,最好...

    centos7下安装nginx(有网以及没有网络)

    在 CentOS 7 系统上部署 Nginx 有两种常见场景:一种是有网络连接的情况下安装,另一种是在离线环境中安装。 #### 二、准备工作 在安装 Nginx 之前,需要准备几个必要的依赖库: 1. **PCRE (Perl Compatible ...

    Nginx中配置过滤爬虫的User-Agent的简单方法

    在Nginx中配置过滤爬虫的User-Agent是一项重要的任务,尤其对于运行个人博客或网站的用户来说,防止恶意爬虫频繁访问可能导致服务器资源过度消耗,甚至影响正常用户的访问体验。本文将详细介绍如何通过Nginx配置文件...

    升级gitlab中nginx版本.docx

    本文将详细介绍如何升级GitLab系统中的Nginx版本,使其使用系统自带的Nginx,并配置端口号,禁止使用自身绑定的Nginx。 一、前提 在开始升级和配置Nginx之前,需要了解GitLab系统的基本组件和架构。GitLab系统主要...

    nginx1.18 nginx1.18 nginx1.18

    在这个版本中,Nginx 提供了稳定性和性能上的优化,以及可能的新功能和安全更新。 首先,让我们深入了解一下 Nginx 的核心特性: 1. **事件驱动架构**:Nginx 使用异步、非阻塞的事件模型,能够同时处理大量的并发...

    nginx禁止访问.git文件的设置教程

    本文将指导你如何在Nginx服务器配置中禁止对.git目录的直接访问。 首先,了解Nginx的配置结构。Nginx的配置文件通常位于`/etc/nginx/nginx.conf`,而具体的站点配置通常在`/etc/nginx/conf.d`或`/etc/nginx/sites-...

    Linux离线安装nginx安装包

    在Linux系统中,离线安装Nginx是一个常见的需求,特别是在没有互联网连接或者网络环境受限的服务器上。本文将详细讲解如何通过离线方式在Linux上安装Nginx,同时也会涉及Nginx依赖的软件如openssl和gcc的安装过程。 ...

    Nginx服务器中设置禁止访问文件或目录的方法

    在nginx要禁止某个或一类资源,只需要增加一个location,然后在其中使用deny all即可。 禁止访问扩展名为bat的文件,配置如下: ... 您可能感兴趣的文章:Nginx中的root&alias文件路径及索引目录配置详解N

    在Android app中集成nginx,非JNI

    集成nginx到Android应用中,需要深入理解Android的系统架构、进程管理和网络编程,同时也需要对nginx的配置和操作有一定的了解。尽管过程较为复杂,但完成后的解决方案能为本地应用带来更灵活的服务能力。在实际开发...

Global site tag (gtag.js) - Google Analytics