`
andy54321
  • 浏览: 442498 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

从淘宝屏蔽百度说起 如何让网站不被抓取

    博客分类:
  • WEB
阅读更多

  上周五,北方网在第一时间报道了关于淘宝屏蔽百度蜘蛛爬虫抓取的消息 ,立刻引起了业界的广泛关注。这一事件被普遍认为与百度发力C2C同淘宝构成直接竞争有关,另有分析也认为这与阿里巴巴近日将淘宝与阿里妈妈业务整合的举措亦存在关系,阿里巴巴希望就此截断淘宝网店的免费流量来源从而吸引网店商家选择自家的阿里妈妈广告推广。

  在众多媒体对这一新闻的报道中,多次提到“robots.txt”这个技术名词。比如在证实淘宝屏蔽百度时提到的“淘宝网已经开始屏蔽百度蜘蛛 爬虫。淘宝在网站根目录下的robots.txt文件中设置相关命令,禁止百度蜘蛛获取网页信息。”并给出了URL为 http://www.taobao.com/robots.txt的链接截图予以证明。

  那么,这个“robots.txt”是什么呢?

  robots.txt(小写字母)是一种存放在一些网站的服务器根目录下的ASCII编码的文本文件。它的作用是告诉搜索引擎的爬虫机器人(又 称网络蜘蛛、漫游器)该网站中的哪些内容是不允许被搜索引擎爬虫抓取的,哪些是允许被抓取的。由于在一些系统中URL大小写敏感,因此 robots.txt的文件名均统一为小写。robots.txt放置在网站的根目录下。

  比如之前我们截图中所看到的淘宝网的robots.txt:

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

  可以看出淘宝的robots.txt显然是专门为了屏蔽百度的爬虫而准备的。

  值得注意的是robots.txt协议并不是一个法律意义上的约束性规范,它只是长期以来在网站之间约定俗成的道德性公约而已,因此并不能完全确保网站的隐私不被不遵守这一协议的搜索引擎抓取。

  如果您也是一个站长,如果也不希望被百度爬虫所抓取,那么该怎么做呢?您可以在百度提供的FAQ“如何让我的网页不被百度收录 ”中找到来自官方的建议:

* 百度严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。
* 您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被百度收录。具体写法,参见:如何撰写Robots文件
* 如果您的网站是在被百度收录之后再设置Robots文件,则Robots文件通常在两周内生效,被文件限制的内容,将从百度搜索结果中移除。
* 如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@baidu.com请求处理。

  但我们同时也注意到近日一则题为《淘宝屏蔽百度 百度回应将开绿色通道 》 的报道:“百度电子商务事业部总经理李明远表示:针对淘宝全面禁止百度爬虫抓取页面,百度准备开辟绿色通道”。尽管这位百度发言人解释“绿色通道”的实现 方式只是“让卖家直接向百度索引库提交网店页面链接地址”,但结合robots.txt这个“协议”在法律或技术层面都不具备任何硬性的约束力,我们有理 由怀疑百度的“绿色通道”是否还有另外一层含义。

分享到:
评论

相关推荐

    为什么淘宝网要屏蔽百度搜索引擎的抓取?.docx

    淘宝网屏蔽百度搜索引擎的抓取,这一策略背后有多重考虑,主要涉及用户信息保护、电商平台信誉维护、内部管理以及市场竞争等因素。 首先,保护用户信息和商业信息是首要原因。淘宝网作为C2C类型的电商平台,拥有...

    淘宝为何屏蔽百度(二).docx

    淘宝屏蔽百度搜索引擎抓取的行为,背后蕴含着多重战略考量,主要涉及用户信息保护、网站信誉维护、市场竞争策略以及自我实力的展现。 首先,保护用户信息和商业信息是至关重要的原因。通过设置`robots.txt`文件禁止...

    百度地图抓取软件

    "百度地图抓取软件"就是这样一款工具,它允许用户将百度网页地图的数据抓取并保存到本地,以便离线使用或进行进一步的分析处理。 首先,我们来理解一下什么是地图抓取。地图抓取是指通过自动化手段从网络上的地图...

    百度地图数据抓取

    这可能是一个用于数据抓取的可执行文件,用于自动化从百度地图上下载数据。但是,使用这样的工具时需谨慎,因为它可能包含非法手段或潜在的安全风险。 6. **数据处理**: 抓取到的数据通常是结构化的,需要进一步...

    模拟百度谷歌等蜘蛛抓取访问工具

    该工具集成了各大常见蜘蛛UA,模拟这些蜘蛛UA访问抓取网站,目前网络上很流行蜘蛛挂马,通过该工具模拟访问可以分析网站是否被挂针对搜索引擎的挂马,可以模拟蜘蛛查看源码。 用法也很简单,打开以后输入目标地址,...

    python 抓取百度云分享数据,百度云最新接口抓取分享链接

    在这个主题中,我们将探讨如何使用Python来抓取百度云分享的数据,特别是利用百度云最新的API接口。这通常涉及到请求、解析HTML或JSON响应、处理验证码以及可能的反爬策略。 首先,要抓取百度云分享的数据,我们...

    抓取淘宝页面数据

    最后,关于道德和法律问题,任何网络爬虫活动都应遵守《互联网信息服务管理办法》等相关法律法规,尊重网站的robots.txt文件,不进行非法或侵入性的抓取,以免引起不必要的法律纠纷。 总结来说,抓取淘宝页面数据...

    IVBD『限制百度蜘蛛抓取txt代码』

    在IT行业中,网站优化与搜索引擎友好性是至关重要的,尤其是对于搜索引擎如百度的抓取行为。"IVBD『限制百度蜘蛛抓取txt代码』"这个主题涉及到如何通过编写`robots.txt`文件来管理搜索引擎爬虫的访问权限。`robots....

    php 抓取百度搜索结果脚本

    php 抓取百度搜索结果脚本,php命令行下运行

    如何从百度云平台抓取8G数据

    针对标题"如何从百度云平台抓取8G数据"和描述中提到的问题,本文将详细阐述如何有效地从百度云平台抓取超过2GB的大数据集,并探讨相关的技术与策略。 首先,我们需要了解百度云平台提供的数据接口和服务。通常,...

    js跳转不影响蜘蛛抓取.rar

    总结来说,虽然JS跳转可能对搜索引擎抓取造成困扰,但通过采用上述策略,我们可以有效地解决这一问题,让JS跳转对搜索引擎友好,同时保持网站的用户体验。重要的是,要持续关注搜索引擎的更新和最佳实践,以确保网站...

    PHP模拟baidu蜘蛛抓取网站链接

    在这个场景中,我们关注的是如何使用PHP来模拟百度蜘蛛的行为,抓取指定网站的链接,并将这些链接保存到TXT文本中。这一过程涉及到多个PHP编程和网络爬虫的相关知识点。 首先,我们需要了解PHP的基础语法和网络请求...

    百度关键词多层抓取

    "百度关键词多层抓取"是一种技术手段,旨在系统性地搜集、分析并整理与特定主题相关的大量关键词,以帮助网站优化其在百度搜索引擎中的排名。这种技术能够深入到多个层次,挖掘出更广泛的关键词网络,从而提升网站的...

    百度地图抓取 抓取地址信息

    本项目聚焦于“百度地图抓取 抓取地址信息”,这涉及到使用特定的技术手段来从百度地图API中获取地理位置和相关地址数据。 首先,关键词“百度地图”表明我们将讨论的是百度公司提供的地图服务。百度地图是领先的...

    winform实现百度网页内容抓取

    在本文中,我们将深入探讨如何使用C# Winform来实现百度网页内容的抓取。Winform是.NET Framework中用于创建桌面应用程序的一种用户界面框架,而内容抓取则是从网络上提取所需信息的一种技术。 首先,我们需要理解...

    淘宝关键词抓取工具

    一款小巧的淘宝关键词抓取工具 淘宝店主做宝贝标题优化时很有用的参考 无需安装即可使用 进入软件后 输入大致类目即可 然后点开始抓取 很快会抓取完毕 最后的数据可以导出的 比如女鞋 输入女鞋 后面很快会抓取到与...

    百度百科抓取工具

    这个是一个python脚本,加入了动态代理,主要做的就是实现百度百科自动抓取

    网站抓取精灵V3.0正式版

    网站抓取精灵V3.0正式版是一款专为数据抓取和网站克隆设计的工具,旨在帮助用户高效地从互联网上抓取所需信息,包括网站的图片、CSS样式表和JavaScript文件。这款软件的最新版本V3.0在性能上有了显著提升,使得网站...

    百度地图抓取工具

    百度地图截获器是下载多元地图数据的工具,该工具可以方便下载街道网络、建筑图底、绿地分布、河流湖泊、地铁、铁路、卫星影像等数据。支持下载道路网络、建筑图底、绿地分布、河流湖泊、地铁、铁路等 6 种基本地图...

Global site tag (gtag.js) - Google Analytics