搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。
在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则 user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。
目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。
首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的:
Google:主机名称应包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com;
MSN:主机名称应包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com;
Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。
最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。
现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。
SEO如何查看你网站的日志文件?
从哪里获取你的网站日志文件?
使用ftp从你网站的wwwlogs目录下载ex071227.log文件,然后进行查看,这点应该根据各空间服务商的不同情况而不同,我的空间是万网的,各位朋友可以跟空间商的技术支持取得联系,得到这些信息。
下面是2007年12月27日我的站点日志中的一条记录:
2007-12-26 16:02:17 66.249.70.57 - GET /catalog.asp 200 24254 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
从上面可以看出,Google的机器人名称为Googlebot,其地址为http://www.google.com/bot.html
而网页正常的访问记录为:
(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.seo-diy.cn/Post/SEO-Thinking-Practice/letter-cizhi-jingli-right-geshi-weizhi.html
下面是紧接着上一条抓取记录的机器人爬行:
2007-12-26 16:12:06 66.249.70.57 - GET /catalog.asp 200 16337 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
可以看到,Google是在白天(中国时间,美国时间是凌晨)更新,两次抓取间隔为10分钟左右。
下面是搜索引擎蜘蛛爬行记录特别密集的一段连续的日志记录:
2007-12-26 18:34:53 203.209.240.182 - GET /favicon.ico 404 3896 HTTP/1.1 iearthworm/1.0,+iearthworm@yahoo.com.cn -
2007-12-26 19:18:33 74.6.23.134 - GET /catalog.asp 200 30721 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) -
2007-12-26 19:19:07 74.6.28.41 - GET /Post/SEO-Thinking-Practice/blog-end-new-website-check-period.html 200 23084 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) -
2007-12-26 19:19:18 202.160.178.30 - GET /Post/seo-tool-resource.html 200 27591 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 19:33:51 202.160.178.117 - GET /catalog.asp 200 33548 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 19:41:16 202.160.178.131 - GET /catalog.asp 200 27633 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 19:50:31 74.6.26.119 - GET /Post/seo-story-record/some-seo-questions.html 200 24525 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) -
2007-12-26 19:59:20 66.249.70.57 - GET /catalog.asp 200 32791 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 20:18:54 124.115.4.196 - GET /default.asp 200 38460 HTTP/1.1 Sosospider+(+http://help.soso.com/webspider.htm) http://www.seo-diy.cn/
2007-12-26 20:18:54 124.115.4.196 - GET /style/default.css 200 20163 HTTP/1.1 Sosospider+(+http://help.soso.com/webspider.htm) http://www.seo-diy.cn/style/default.css
2007-12-26 20:18:57 124.115.4.196 - GET /css/print.css 200 4001 HTTP/1.1 Sosospider+(+http://help.soso.com/webspider.htm) http://www.seo-diy.cn/css/print.css
2007-12-26 20:18:57 124.115.4.196 - GET /script/common.js 200 39736 HTTP/1.1 Sosospider+(+http://help.soso.com/webspider.htm) http://www.seo-diy.cn/script/common.js
2007-12-26 20:18:57 124.115.4.196 - GET /SCRIPT/navbar.js 200 1355 HTTP/1.1 Sosospider+(+http://help.soso.com/webspider.htm) http://www.seo-diy.cn/SCRIPT/navbar.js
2007-12-26 20:18:58 124.115.4.196 - GET /PLUGIN/KeyWords/KeyWords.js 200 3109 HTTP/1.1 Sosospider+(+http://help.soso.com/webspider.htm) http://www.seo-diy.cn/PLUGIN/KeyWords/KeyWords.js
2007-12-26 20:26:36 66.228.164.208 - GET /Post/SEO-Technique-Skill/twelve-month-build-a-successful-website-experience.html 206 48462 HTTP/1.1 Mozilla/5.0+(Macintosh;+U;+PPC+Mac+OS+X+Mach-O;+en-US;+rv:1.8.1.5)+Gecko/20070713+Firefox/2.0.0.5 -
2007-12-26 20:27:52 202.160.180.60 - GET /catalog.asp 200 19744 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 20:29:02 66.249.70.57 - GET /catalog.asp 200 16416 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 20:30:39 209.85.238.22 - GET /rss.xml 304 141 HTTP/1.1 Feedfetcher-Google;+(+http://www.google.com/feedfetcher.html;+1+subscribers;+feed-id=11107473901409426197) -
2007-12-26 20:36:38 219.239.34.53 - GET /rss.xml 304 141 HTTP/1.1 xianguo+1+subscribers -
2007-12-26 20:40:04 202.160.179.147 - GET /Post/seo-tool-resource/my-lovest-seo-blog.html 304 142 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 20:41:55 66.249.70.44 - GET /Post/SEO-Thinking-Practice/seo-many-websites-or-single.html 304 142 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 20:42:27 61.135.166.234 - HEAD /Post/SEO-Thinking-Practice/seo-lanhai-geren-team.html 200 248 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
2007-12-26 20:44:10 66.249.70.25 - GET /Post/SEO-Thinking-Practice/seo-must-know-time.html 304 141 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 21:22:44 61.135.166.234 - HEAD /catalog.asp 200 256 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
2007-12-26 21:26:59 61.135.220.245 - GET /robots.txt 200 780 HTTP/1.1 Mozzila/1.3+(http://www.yodao.com/help/webmaster/spider/;+) -
2007-12-26 21:27:00 61.135.220.245 - GET /rss.xml 200 61515 HTTP/1.1 Mozzila/1.3+(http://www.yodao.com/help/webmaster/spider/;+) -
2007-12-26 21:38:47 202.160.180.183 - GET /catalog.asp 200 19804 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 22:00:05 202.160.180.202 - GET /catalog.asp 200 19774 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 22:00:35 61.135.166.234 - HEAD /catalog.asp 200 256 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
2007-12-26 22:14:07 66.249.70.23 - GET /robots.txt 200 780 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 22:14:07 66.249.70.41 - GET /sitemap.xml 200 5017 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 22:24:26 66.249.70.57 - GET /catalog.asp 200 19947 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 22:25:23 220.181.38.209 - GET /catalog.asp 200 16122 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
2007-12-26 22:25:58 220.181.38.209 - GET /catalog.asp 200 30429 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
2007-12-26 22:26:27 220.181.38.209 - GET /catalog.asp 200 19301 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
2007-12-26 22:31:44 74.6.20.22 - GET /robots.txt 200 780 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) -
2007-12-26 22:31:44 74.6.20.210 - GET /catalog.asp 200 16402 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) -
2007-12-26 22:32:52 202.160.178.161 - GET /Post/SEO-Technique-Skill/how-to-select-keyword.html 304 142 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 22:51:44 202.160.180.63 - GET /catalog.asp 200 21409 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 22:54:45 66.249.70.57 - GET /catalog.asp 200 19771 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 23:07:21 202.160.179.85 - GET /cmd.asp 200 1166 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
这里我们可以看到很多蜘蛛的影子:
yahoo蜘蛛的名称是Yahoo!+Slurp+China 地址是http://misc.yahoo.com.cn/help.html
而百度的蜘蛛名称是Baiduspider 地址是http://www.baidu.com/search/spider.htm
SOSO的蜘蛛名称是Sosospider 地址是http://help.soso.com/webspider.htm
另外有几条记录:
2007-12-26 22:14:07 66.249.70.23 - GET /robots.txt 200 780 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 22:14:07 66.249.70.41 - GET /sitemap.xml 200 5017 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
说明各搜索引擎的蜘蛛应该是先读取跟目录下的robots.txt文件,然后根据robots.txt规则进行抓取的,然后紧接着读取sitemap.xml文件,从而判断网站有没有更新。
下面这行是网易有道搜索引擎的图片蜘蛛:
2007-12-27 00:46:17 61.135.220.63 - GET /images/biaoshi.gif 404 3896 HTTP/1.1 Mozilla/5.0+(compatible;YodaoBot-Image/1.0;http://www.yodao.com/help/webmaster/spider/;) http://image.yodao.com/
下面是Google的feed抓取机器人记录:
2007-12-27 02:30:44 209.85.238.22 - GET /rss.xml 304 141 HTTP/1.1 Feedfetcher-Google;+(+http://www.google.com/feedfetcher.html;+1+subscribers;+feed-id=11107473901409426197) -
可以看见, Feedfetcher-Google是蜘蛛的名称,地址是:http://www.google.com/feedfetcher.html
哪些蜘蛛支持robots协议?
2007-12-27 03:04:47 202.160.181.217 - GET /robots.txt 200 780 HTTP/1.0 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) -
2007-12-26 22:14:07 66.249.70.23 - GET /robots.txt 200 780 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
2007-12-26 16:57:56 61.135.220.140 - GET /robots.txt 200 780 HTTP/1.1 Mozilla/5.0+(compatible;YodaoBot-Image/1.0;http://www.yodao.com/help/webmaster/spider/;) -
2007-12-27 08:57:27 61.135.166.78 - GET /robots.txt 200 799 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
可以看见Google(谷歌)、Yodao(有道)、Yahoo(雅虎)和baidu(百度)都是支持robots协议的。
哪些支持sitemap.xml协议?
2007-12-26 22:14:07 66.249.70.41 - GET /sitemap.xml 200 5017 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) -
可以看见只有Google(谷歌)支持sitemap.xml协议。
分享到:
相关推荐
一个网口用于 TCP/IP 通讯,另一个网口用于 EtherNet/IP 通讯。 三、IO 物理接口分配 在安装对应板卡的情况下,需要填入对应的端口号。主口填入 12,从口填入 12。不使用的情况下填 0。 四、信号配置设定 在信号...
如果没有这个选项包,工控机需使用两个网卡,一个连接机器人Service口,另一个用于与其他上位机通信。对于只控制一台机器人的情况,工控机可以直接进行离线编程,无需额外软件包。 总的来说,通过上述步骤,我们...
在UR机器人的上下文中,一个EtherNet/IP EDS文件包含了关于UR机器人控制器如何与EtherNet/IP网络交互的所有必要信息,如节点ID、服务、数据类型等。这种文件对于配置和调试UR机器人与其他 EtherNet/IP 兼容设备的...
在这个画面中,我们可以给机器人起一个名字,例如rob,并配置机器人与PLC之间的数据交换字节数。在这里,我们可以输入8个字节的数据进行输出,并输入12个字节的数据进行输入。这是机器人与PLC之间的数据交换字节数。...
4. IP设置调整:在“IPSetting”中,需要编辑已有的EtherNet/IP网络的IP地址,并选择合适的网口,这一步骤是为了确保ABB机器人能够在指定的网络中正确通信。 5. 添加Ethernet/IP设备:通过选择“EtherNet/IP Device...
EtherNet/IP 是一种适合工业环境的通信系统,利用EtherNet/IP,可以在工业设备之间发送和接收时效性的应用信息。这些工业设备中不仅有传感器、传感装置等一些单纯的 I/O 设备,也包括机器人、可编程逻辑控制器、...
库卡(KUKA)机器人TCP/IP通讯是工业自动化领域中的一个重要知识点,它涉及了现代机器人控制技术、网络通信协议以及编程接口等多个方面。在这个专题中,我们将深入探讨如何利用TCP/IP协议与KUKA机器人进行高效、稳定...
库卡机器人KUKA.EtherNetIP MS通讯选项安装包是一个专为库卡机器人系统设计的软件组件,用于实现机器人与以太网/IP设备之间的高效通信。这个版本V4.1.4代表了该通讯选项的最新更新,可能包含性能优化、错误修复以及...
这将打开一个显示当前机器人名称的窗口。 3. **修改机器人名称**:在该窗口中,你可以看到当前机器人的名称(如“rrr445”)。直接在名称字段中输入新的机器人名称,然后点击旁边的“”图标,系统会询问是否保存...
在给定的内容中,我们看到一个简单的ABB机器人TCP/IP通信程序实例。下面将详细解析该程序的各个部分: ##### 1. 定义变量 程序首先定义了一些必要的变量,用于存储通信过程中需要用到的信息: - `socketdev ...
3. **配置网络设置**:在FANUC机器人控制器和目标设备上设置正确的IP地址、子网掩码和网关,确保两者在同一个网络段内。 4. **建立连接**:通过EthernetIP协议连接FANUC机器人控制器和目标设备,进行通信参数的设定...
ABB机器人作为从站的配置还需要有一个从站描述文件(EDS),这是用于描述从站设备的特性和配置的文件。可以通过ABB的RobotStudio软件获得,具体路径为在RobotStudio的Add-in下右键点击,然后按照软件路径寻找相应...
KUKA 机器人通过 EtherNet/IP 与工业相机通讯配置实例 本文档介绍了使用 KUKA 机器人通过 EtherNet/IP 协议与 OMRON 工业相机进行通讯的配置过程。该配置过程需要满足特定的前提条件,包括安装 KRC4 EtherNet IP ...
在工业自动化领域中,KUKA机器人是非常常见的工业机器人品牌之一,而EthernetIP通讯协议是目前工业自动化领域中最常用的通讯协议之一。为了实现KUKA机器人与PLC之间的EthernetIP通讯,需要获取机器人的EDS文件。本文...
ABB机器人(主站)与CP1H(从站)Ethernet IP 通讯 ...ABB机器人(主站)与CP1H(从站)Ethernet IP 通讯是一种高效、可靠的通讯技术,可以实现机器人与PLC之间的高速数据交换,提高机器人的自动控制和监控能力。
Ethernet/IP是一种工业以太网协议,广泛用于自动化设备间的通信,允许不同厂商的设备在同一个网络中协同工作。 首先,硬件系统构成包括西门子1516-3 PN/DP PLC作为主站,其系统版本需为2.8或更高,以及安川YRC1000...
ABB机器人与倍福TC3 Ethernet IP主从通讯是工业自动化领域中的一个重要技术主题,涉及到两个知名品牌的产品集成:ABB的机器人技术和倍福(Beckhoff)的TC3控制系统。Ethernet IP(以太网工业协议)是一种广泛应用的...
对于工业机器人来说,一个高等级的IP防护等级是至关重要的,尤其是对于在特殊环境中作业的机器人。例如,IP68等级是目前工业机器人领域所能够达到的最高防护等级之一,它意味着机器人可以承受在一定深度的水下长时间...
机器人通过HTTP、FTP等访问的网络与端口1(CD38A)连接,EtherNet/IP封闭的网络与端口2(CD38B)连接是一个好方法。这两种连接方式可以满足不同的应用需求,提高机器人的灵活性和适应性。 下面是机器人作为从站一侧...