提起向百度提交数据,大家基本都会想到sitemap,最近又推出的etag是什么东东?真的能有效果吗?
sitemap是解决网站收录至关重要的途径之一,而通常sitemap的更新都不是很及时,并且体量都相对较大,此时也消耗了相应的网站流量及带宽。而ETag可以用来标示网页是否发生了变化,如果没有变化返回304状态码,就不用再重新传输整个网页了。
在我们的sitemap配置了ETag之后,对日志一段时间的监测发现,其sitemap响应时间以及耗时的平均时间均大幅度下降,爬虫访问sitemap文件的次数有所增加,对于收录而言,通过图表也能看出相对的增长曲线,我们的整体收录率大致提升范围在2% – 5%左右。所以在此,强烈建议大家设置sitemap的ETag,简简单单的一个小动作就能看到相对明显的效果还是很不错的。
ETag全称EntityTags,HTTP协议规格说明中定义“ETag”为“被请求变量的实体值”。我们也可以把ETag理解为是一个客户端与服务器关联的记号。这个记号告诉客户端,当前网页在上次请求之后是否有发生变化,当发生变化时,ETag的值重新计算,并返回200状态码。如果没有变化,返回304状态码。从而不会重新加载整个页面信息。
如下,是我司站点的sitemap文件的头信息:
我们看到,ETag中包含了一连串的数据,这就是计算出来的一个值,如果它发生变化,说明其页面内容一定发生了变化。如果页面没有发生变化时,头信息应该如下:
通过如下方式进行验证,第一次访问200状态码,有ETag的一行文本,再次访问该页面时,状态码为304,ETag的值不变。至此,我们就可以确定ETag配置成功。
另外,sitemap启用Etag后:
1.百度可以更及时地响应sitemap的更新;
2.页面没有更新的情况下,对流量的消耗极小;
3.百度更加及时的抓取sitemap,便于更好的收录。
但多数情况下,ETag会与Last-Modified一起使用,这样可利用客户端(例如浏览器)的缓存。因为服务器首先产生Last-Modified/Etag标记,服务器可在稍后使用它来判断页面是否已经被修改。本质上,客户端通过将该记号传回服务器要求服务器验证其(客户端)缓存。
站点服务器如何配置ETag?
最好是对全站进行配置ETag,这样对于站点而言,在带宽消耗、爬虫抓取上的提升还是会有很大收益的。
一.Apache
Apache根据配置文件中的配置来设置Etag值,默认的Apache的FileEtag设置为:FileEtagINode Mtime Size。
也就是根据这三个属性来生成Etag值,他们之间通过一些算法来实现,并输出成hex的格式,相邻属性之间用-分隔,比如:"2e681a-6-5d044840",这里面的三个段,分别代表了INode,MTime,Size根据算法算出的值的Hex格式,可以改变Apache的FileEtag设置,比如设置成FileEtagSize,那么得到的Etag可能为:"6",设置了几个段,Etag值就有几个段。
详细配置:
步骤1:
在要启用ETag的目录下增加.htaccess文件并在其中增加一行,如图:FileETagMTime Size
以覆盖默认的Innode MTime Size的ETag,因为默认的ETag使用到的Innode会导致相同的文件在分布式服务器上产生的ETag不同。
步骤2:
如果.htacces文件已经存在,请确保要启用ETag的目录/.htacces文件中没有FileETagNone。如果存在FileETag None,请删去该行。
检查没有用mod_headers将ETag除去,即httpd.conf文件中没有出现下面的语句,
LoadModuleheaders_module modules/mod_headers.so Headerunset ETag
如果出现如图情况,请删除Headerunset ETag这一行。
步骤3:
重新启动httpd,就启用ETag了。
二.Nginx
步骤1:
确认Nginx版本,命令:Nginx安装目录/sbin/nginx–v。
版本为1.7.3及更高,继续步骤2;版本为1.7.3以下,1.3.3及以上,进行步骤3;版本为1.3.3以下,不支持ETag,请升级您的Nginx。
步骤2:
确认没有关闭ETag:打开Nginx的配置文件nginx.conf(默认位置Nginx安装目录/conf/),确保其中没有出现etagoff;,下图为出现的情况,请将此行删除。
确认没有使用ngx_headers_more清除ETag头:同样在配置文件中不能出现如下语句的任意一句,如果出现请将其删除。
重新启动Nginx,就启用ETag功能了。
步骤3:
查看是否开启了gzip,且是否和etag出现冲突,出现冲突去步骤4,没有去步骤2。
打开Nginx的配置文件nginx.conf(默认位置Nginx安装目录/conf/),其中出现gzip on;语句证明开启了gzip,如图。
开启gzip时,可能与etag出现冲突,用浏览器多次请求此网站的静态元素,如果只返回200,不返回304,证明存在冲突,请去步骤4;没有冲突去步骤2。
步骤4:
请关闭gzip,即将上一步中的gzipon;改为gzip off;然后去步骤2。
若不想关闭gzip,并要开启ETag,同时仍要坚持使用当前的Nginx版本,只能修改源码并重新编译。
下载此版本安装包并解压,将其目录下/src/http/modules/ngx_http_gzip_filter_module.c文件中约309行左右的ngx_http_clear_etag(r);一行注释掉或删掉。如下图:
如果没有找到ngx_http_clear_etag(r);而是发现ngx_http_weak_etag(r);如下图,证明此Nginx没有gzip和etag冲突的问题,不必进行任何修改。
重新编译源码安装Nginx,解决这个冲突,然后去步骤2。
三.IIS
IIS7是默认开启ETag的,如果没有ETag,请按以下步骤设置。
打开Internet Information Services (IIS) Manager,如图双击HTTP响应头部(HTTPResponse Headers),
选择No Grouping标签,在空白处右键选择Add。
设置Name为ETag,Value为双引号。
配置web.config:
<system.webServer> ... <httpProtocol> <customHeaders> <add name="ETag"value="""" /> </customHeaders> </httpProtocol> ... </system.webServer>
完成。
相关推荐
3. **比较与响应**:服务器接收到`If-None-Match`头后,会对比当前资源的Etag。如果Etag未变,说明资源未更新,服务器会返回304 Not Modified状态码,客户端则可直接使用缓存;如果Etag已变,则返回新的资源和新的...
Etag http If-None-Match If-Modified-Since Last-Modified 使用Demo 已经可以直接使用
HTTP中的ETag是什么意思,如何使用
3. **考虑性能**:在大型应用中,可能需要优化Etag的生成策略,比如使用弱校验符(Weak Etag,以"W/"开头)或者基于资源内容的哈希值生成Etag,以降低服务器负载。 总结,Etag是HTTP缓存机制的关键组成部分,它帮助...
值得注意的是,Etag的性能优化效果取决于资源的更新频率。对于很少变化的静态资源(如图片、CSS和JavaScript文件),Etag的效益尤其显著。然而,对于频繁变动的动态内容,Etag可能会增加服务器的计算负担,因为它...
服务器在响应中返回ETag,客户端在后续请求中可以携带If-None-Match头,对比ETag来判断资源是否已更改。如果资源未变,服务器只需返回304 Not Modified状态码,而无需发送整个资源内容,从而提高性能和节省带宽。 ...
对于使用windows IIS的服务器,则需要使用第三方的DLL文件更有效些,具体使用方法:下载REMEtags,RemEtag.zip,解压到服务器下的文件夹下,再启用ISAPI,即把RemEtag.dll添加到ISAPI应用下运行,再重启IIS即可生效。...
它通常是资源内容的哈希值,如MD5,这样客户端可以通过比较新旧`ETag`来判断资源是否发生了变化。如果`ETag`未变,客户端就可以从缓存中直接读取,减少网络传输,提高性能。 `Cache-Control`头则提供了更精细的缓存...
Apache的配置中,可以使用Header指令添加或删除Etag,例如`Header unset Etag`来禁用Etag。Expires则是通过设置HTTP响应头来指定资源过期时间,例如`ExpiresActive On`和`ExpiresByType image/jpeg "access plus 1 ...
ETag-Session use etag to realize the mechanism of session 项目采用koa作为web框架 采用Bigpipe实现客户端对服务端事件的订阅 此处只是简单的将数据存储在内存中,并且在多服务集群下未做同步,因为此处的目的是...
2. 服务器比较:服务器接收到请求后,比较If-None-Match中的Etag与当前资源的Etag。 3. 返回304 Not Modified:如果Etag匹配,说明资源未变,服务器返回304状态码,客户端无需再次下载。 4. 返回200 OK:若Etag不...
服务器会比较这个值与当前资源的ETag,如果两者匹配,同样会返回304 "Not Modified"响应。 相比于 `Last-Modified`,ETag 更加精确,因为它基于资源内容,即使修改时间相同,只要内容变化,ETag就会改变。但这也...
:light_bulb: 该中间件是为 v2.xx设计的,并使用来实现ES5兼容性。 :wrench: 该中间件正在开发中。 反馈/公关受到欢迎和鼓励。 如果您想在这个项目上进行合作,请告诉我。 安装 $ npm install --save koa-async-...
缓存ETag标头,并通过If-None-Match标头将它们发送回服务器。 使用灵活的缓存配置来缓存响应数据。 支持$cacheFactory , sessionStorage和localStorage开箱即localStorage缓存。 轻松于其他第三方缓存服务。 与...
### Flash Cookies与隐私II:现加入HTML5及ETag重生技术 #### 概述 2009年8月,研究团队揭露了流行的网站正在利用“Flash cookies”追踪用户的行为。这种技术允许广告商即便在用户采取措施避免网络行为被记录的...
如果服务器上的资源未发生变化,服务器会检查If-None-Match的Etag值,如果匹配,则返回304 Not Modified状态码,客户端则可以使用缓存的资源,无需下载整个响应体。 EtagComputeUtils.java可能是一个工具类,负责...