今天帮一个网站刚上线的客户解决一些服务器的琐碎问题,记录如下:
问题1:Server report出现很多404请求错误。如下图:
解决方案:查看详细日志,发现如下图:
这个robots.txt文件到底是什么呢?而且为什么被访问了这么多次?(见百度百科)
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
语法:最简单的 robots.txt 文件使用两条规则:
· User-Agent: 适用下列规则的漫游器
· Disallow: 要拦截的网页
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误文件(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误文件,所以你应该在网站中添加一个robots.txt。
由此可见,只要在站点根目录添加一个robots文件就可以fix了。那怎么写这个文件呢?
参考这个链接
http://www.dunsh.org/2006/08/02/robotstxt/
问题2:空间商提供了一个临时域名,类似nw16XXX.chinaw3.com,通过临时域名进入系统的用户会在后续操作出现问题,因为系统的部分设置采用的正式域名www.abcd.cn。
解决方案:系统采用的asp.net,只要将通过临时域名进入的用户redirect到正式域名就可以了,在index.aspx中加入
<%
string url = Request.Url.ToString();
if(!url.Contains("abcd"))
Response.Redirect("http://www.abcd.cn/");
%>
为了防止通过正式域名进入的用户不进入死循环,加入了对当前请求url的字符串判断。只有来自临时域名的才会被重定向。
- 大小: 24 KB
- 大小: 30.7 KB
分享到:
相关推荐
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果...
在IT行业中,`robots.txt` 文件是一个非常重要的概念,它被用来指导网络爬虫如何抓取网站内容。这个压缩包“robots.txt解析器_Ruby_下载.zip”显然包含了一个使用Ruby编程语言编写的用于解析`robots.txt`文件的工具...
### 搜索蜘蛛:什么是robots.txt,要怎么写? 在探讨如何编写`robots.txt`之前,我们首先需要了解这个文件的基本概念及其在网站管理和搜索引擎优化(SEO)中的作用。`robots.txt`是一个放置在网站根目录下的文本...
### 搜索引擎机器人文件robots.txt让你的网站得到更好的优化 #### robots.txt文件详解与最佳实践 在探讨如何通过robots.txt文件来优化网站之前,我们首先需要了解什么是robots.txt以及它在搜索引擎优化(SEO)中的...
### 如何编写robots.txt文件 在互联网世界里,搜索引擎蜘蛛(也称为爬虫或机器人)是网站流量的重要来源之一。为了更好地控制哪些页面被搜索引擎收录,哪些页面不被收录,就需要用到一个非常重要的文件——robots....
robots.txt使用方法 反爬虫 SEO.zip
### robots.txt 文件详解 #### 一、概述 `robots.txt` 是一个位于网站根目录下的文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取、哪些页面不可以抓取。通过合理设置 `robots.txt` 文件,可以帮助网站管理者更好...
针对这个需求,Vuepress 提供了一个插件——"用来生成robotstxt文件的Vuepress插件",用于自动化生成 `robots.txt` 文件,以确保网站的SEO优化和隐私保护。 这个插件的使用主要是为了方便 Vuepress 用户自定义他们...
robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不可以被收录,如果您不想让搜索引擎收录您网站的某些内容,请用robots.txt文件指定搜索引擎在您网站上的抓取范围。 此工具本人找了很久,源码...
一个经典的wordpress的robots.txt的写法 下载后直接复制就行了 略微调一下也行的 文件来自:www.52jiwai.com 分享时请注明来处!
关于robots.txt文件的位置,标准的做法是将其放置在网站根目录下,文件名必须全部小写,即“robots.txt”。如果该文件位于其他位置,大多数爬虫可能不会遵循其指令。 Google对robots.txt协议进行的改变包括更新了...
这段代码会检查请求路径是否为`/robots.txt`,如果是,则返回一个基本的robots.txt内容,允许所有爬虫访问`/about`页面,但禁止访问`/admin`页面。如果请求路径不是`/robots.txt`,则调用`next()`函数继续处理其他...
在帝国CMS中,`robots.txt`文件是一个至关重要的元素,它用于指导搜索引擎爬虫如何抓取网站的内容。本文将详细探讨`robots.txt`文件的原理、作用以及在帝国CMS中的具体应用。 **robots协议的原理** `robots协议`,...
**robots.txt在SEO中的作用详解** robots.txt是一个网站的重要组成部分,它是搜索引擎爬虫与网站管理员之间的沟通桥梁。通过这个文件,网站所有者可以指示搜索引擎哪些页面可以被爬取,哪些应该被禁止。本文将深入...
4. **设置规则**:在`config/robotstxt.php`配置文件中,你可以根据环境(如`production`、`development`等)定义一组规则。规则包括允许(`User-agent: *`)和禁止(`Disallow: /`)爬虫访问特定路径。 5. **...
setUrl ( 'http://nodeguide.ru/robots.txt' , function ( parser , success ) { if ( success ) { parser . canFetch ( '*' , '/doc/dailyjs-nodepad/' , function ( access ) { if ( access ) { // parse url
在SEO优化方面,robots.txt文件扮演着至关重要的角色,它是搜索引擎爬虫访问网站时首先查看的文件,用于告知爬虫哪些页面可以抓取,哪些应禁止抓取。"易优cms robots文件生成器插件"就是为了方便用户自定义和管理这...
### 禁止搜索引擎/蜘蛛抓取的规则文件:robots.txt模板详解 #### 一、概述 `robots.txt` 文件是网站与网络爬虫(包括搜索引擎蜘蛛)之间的一种通信方式,用于告诉爬虫哪些页面可以抓取,哪些页面不可以抓取。通过...
在互联网上,`robots.txt` 是一个非常重要的文件,它用于告知搜索引擎爬虫哪些页面可以抓取,哪些页面应被禁止。本篇文章将深入探讨如何使用 Go 语言来实现 `robots.txt` 排除协议。我们将主要关注以下几个关键知识...
**关于robots meta标签** 除了 `robots.txt` 文件,还有 `robots` 元标签,它是HTML页面头部的一个元数据,可以控制搜索引擎对单个页面的处理方式。`robots` 元标签的四个指令包括: 1. **Index:** 允许搜索引擎...