用户经常问我们关于重复内容的问题。以下文章翻译自
谷歌网络管理员中心英文官方博客。作者是Adam Lasnik, 谷歌搜索布道者。发表于2006年12月18日。
原文
Deftly dealing with duplicate content最近,搜索引擎战略会议在寒冷的芝加哥举行。许多谷歌参加者总是被问及关于重复内容的问题。对于这个话题,我们发现有许多破碎的并且有些混乱的理解。我们想在此予以澄清。
什么是内容重复?重复的内容一般是指在不同域名间存在大量的相同或相似的内容。很多时候,它并非故意或至少本无恶意。譬如说,有些论坛会生成一些专为手机屏幕的页面;商店物品被显示在(有时甚至是链接到)多种不同的URL上,等等。但有些时候,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量地从其他网站复制内容。
什么不是重复内容?虽然谷歌网站有方便易用的
翻译功能,我们的算法不会把有着相同内容的英文版和西班牙文版看作内容复制。同样,你不用担心我们把你文章中对其他文章小片段的引用认定为重复内容。
为什么谷歌关心重复内容?谷歌用户使用Google时通常希望看到多样化的原创内容。如果他们找到的都是内容相同的一堆搜索结果,可以想见那是多么烦人。另外,网站管理员不愿意看到Google给出象example.com/contentredir?value=shorty-george〈=en一样复杂的URL。他们往往更喜欢类似example.com/en/shorty-george.htm的URL。
谷歌做了些什么? Google在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在robots.txt里设定noindex标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会在对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上... 因此,在绝大多数情况下,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。
网站管理员如何主动处理内容复制问题? - 适当阻止搜索引擎访问:与其让我们的算法来确定一个文件的"最佳"版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的robots.txt文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。
- 使用301重定向:如果你已经重构你的网站,请在你的原网站的.htaccess中使用301重定向(永久性重定向)来重定向你的用户、Google爬虫、以及其他搜索引擎蜘蛛等。
- 链接要一致:努力使你的内部链接保持一致; 不要既有/page/,又有/page和/page/index.htm 的内部链接.
- 使用顶级域名:为了让我们总是使用最合适的文件版本, 请尽可能使用国家特定的顶级域名。与诸如example.com/de或de.example.com的URL相比,谷歌肯定更清楚地知道example.de是以德文为核心的内容。
- 小心辛迪加式的联合供文:如果你为其他网站上也提供你的内容,请在每一个其他网站的文章中包括连回原文章的链接。注意:即使是这样,对一个查询,谷歌总是显示我们认为是最适合的(没被网站禁止的)版本, 它可能是,也有可能不是你所想要的版本。
- 使用谷歌网站管理员工具的首选域功能: 如果其他网站链接你的URL时既使用www版本又使用无www的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
- 减少模板网页上的重复内容:拿版权声明来说,你有两种选择,一种是在你的每一个页面底部都有一个冗长的版权声明。另一种是设立一个专门的版权详细声明页,然后在每页底部写一个非常简短的总结,并链接到版权声明页。
- 避免发布无内容页:用户不喜欢看到无实际内容的页面。要尽量避免空架页。以房地产网页为例,不要发布(或至少要阻止)没有点评的点评网页,或者没有房地产列表的房地产罗列网站等。只有这样,网站用户(以及Google爬虫)才不会看到无穷多的写着“以下是在【某城市名】中不可错失的待租房列表...”但其实根本没有什么列表的网页。
- 了解你的内容管理系统:确保你熟悉你的网站是怎样显示内容的,尤其是当它包括了博客,论坛,或相关的系统。往往在这些系统中同一内容会以多种形式出现。
- 不要担心,保持快乐:不要过分受搜刮(挪用和转载)你内容站点的干扰。虽然很恼人, 它们几乎不可能对你在谷歌中的存在产生负面影响。如果你实在忍无可忍, 欢迎你提出千禧年著作权法案申请来声明对你的内容的所有权。我们会处理那些无赖网站。
总之, 如果你对内容复制问题有一个大体的认识,又能花上几分钟有见地地预防性维护一下你的网站,这将既帮助你们,也帮助我们为用户提供独特而相关的内容。
较早对“巧妙地处理内容重复”的40个评论存档
分享到:
相关推荐
4. 这时会弹出“删除重复项”对话框,确认所选区域无误后,点击确定,Excel将自动找出并删除指定区域内的所有重复内容。 这个功能特别适用于清理大量数据,可以一次性有效地去除重复项,帮助你获得更准确的数据集。...
本篇将详细阐述两种在Excel 2021中对重复数据进行巧妙处理的方法:一是如何在输入时避免重复,二是如何轻松删除已存在的重复数据。 首先,我们来看如何在数据输入时避免重复。当需要输入像学籍号、身份证号码这类不...
"易语言源码删除重复文本"是一个与文本处理相关的项目,可能包含了一系列的易语言源代码文件,用于实现查找和删除文本中的重复内容的功能。这个功能在数据清洗、文本分析等领域有广泛应用。 在编程中,删除重复文本...
YAHOO.util.YUILoader类中的一个方法提供了一种巧妙的解决方案,通过将数组转换为对象来去除重复项。这种方法利用了JavaScript对象的键不可重复性,从而有效地解决了问题。下面我们将详细探讨这个方法的实现、思路和...
【知识点详解】 1. **处理听众问题的策略** ...这些技巧对于任何需要公开演讲的人来说都是至关重要的,它们帮助演讲者更有效地与听众互动,处理各种可能出现的问题,确保沟通的有效性和演讲的成功。
在Excel 2003中,管理数据时可能会遇到重复记录的问题。...以上技巧可以帮助Excel 2003用户更有效地管理数据,避免重复,提高工作效率。通过熟练掌握这些方法,可以轻松处理大量数据,保证数据的准确性和一致性。
首先,不重复抽奖的核心在于数据管理,通常我们使用Microsoft Excel来处理这些数据。Excel是一款强大的电子表格软件,具备数据排序、筛选和统计功能,非常适合用于抽奖系统。在这个场景下,你需要创建一个Excel表格...
在JavaScript中处理数组时,我们经常会遇到需要从一...通过阅读以上内容,我们了解了JavaScript中如何巧妙地通过对象的属性来实现两个数组的比较和去重。在掌握这一技巧后,我们可以更加高效地处理数组相关的编程任务。
【阵列处理机】是一种并行计算模型,其核心特点是通过大量简单的处理单元(PE,...总的来说,阵列处理机和相联处理机都是并行计算的重要分支,通过巧妙的架构设计和并行处理策略,实现了高效的大规模数据处理。
使用Access可以巧妙地合并多个Excel文件,使得数据处理更加方便快捷。本文将介绍使用Access合并多个Excel文件的步骤和技术。 一、创建对Excel工作簿的链接 在Access中,可以通过创建对Excel工作簿的链接来合并多个...
例如,可以创建一个专门的处理程序iframe.php,在其中使用switch语句来根据传递的参数src动态地加载不同的页面内容。当请求iframe.php时,通过GET请求传递一个src参数,根据该参数值决定加载top.html、menu.html或...
总的来说,通过巧妙地运用C#的枚举和泛型特性,我们可以构建出高效的数据去重解决方案,即使面对大量数据,也能在短时间内完成去重任务。在实际开发中,理解并灵活运用这些语言特性,将有助于提升代码的质量和性能。
8. **新员工融入**:帮助新员工理解团队术语和文化,可以主动解释专业词汇,改变传统表达方式,让新员工更快地适应团队环境。 9. **确保指令理解**:经理人要确认下属理解了自己的指令,可以通过重复、解释、举例或...
在SQL中,处理重复数据是一项常见的任务,尤其是在数据清洗和数据整理...通过巧妙地组合这些元素,我们可以有效地查询并删除重复数据,确保数据的准确性和一致性。在实际应用中,应根据具体情况选择最合适的解决方案。
例如,它可以用来检测文本的重复内容,防止抄袭;在生物信息学中,找出基因序列中的重复片段有助于理解基因功能和遗传变异。 总的来说,寻找最大重复子串的算法问题展示了在面对字符串处理挑战时,如何通过巧妙的...
使用Microsoft Access可以巧妙地合并多个Excel文件,从而提高工作效率和数据分析能力。下面我们将详细介绍如何使用Access来合并多个Excel文件。 使用Access合并多个Excel文件的步骤 1. 在Access中创建对Excel工作...
它允许开发者在用户浏览器会话期间保持特定数据,这对于处理用户登录、防止重复登录以及统计在线用户数等场景非常有用。本解决方案的核心就是巧妙地利用了`Session`对象的功能。 首先,我们来理解`Session`的基本...
在"HTML模板的巧妙使用2"中,可能涉及到更高级的技巧,比如如何组织模板文件结构以保持代码整洁,如何通过模板继承减少重复代码,或者如何使用模板辅助函数处理复杂的逻辑。 模板的执行过程通常是这样的:首先,...
总的来说,通过巧妙地利用哈希表,我们可以高效地解决“存在重复元素”的问题,这对于处理大规模数据尤其有利。这个方法不仅适用于LeetCode上的挑战,也具有广泛的实用价值,可以应用到实际的编程项目中。
总的来说,通过巧妙地利用位操作,我们可以实现一个快速的算法来生成特定区间内的不重复随机数。这种方法不仅适用于编程竞赛,也适用于那些需要大量不重复随机数的高性能应用。记住,无论选择哪种方法,都需要根据...