`
johnnyhg
  • 浏览: 346633 次
  • 来自: NA
社区版块
存档分类
最新评论

搜索引擎优化基础,第 3 部分: 让 Web 页面进入搜索引擎索引

    博客分类:
  • web
阅读更多
作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。在这个系列的第 3 部分中,您将学习如何让 Web 站点的页面进入搜索索引。

Web 搜索是热点,而且越来越热门。四分之三的 Web 用户经常进行搜索,64% 的 Web 用户以搜索作为寻找信息的主要方法(参见 参考资料 中相关研究的链接)。这些用户会找到您的站点吗?您的 Web 站点会错过机会吗?

在本系列的前两部分中,Jennette Banks 概述了搜索营销(第 1 部分)以及关键词规划和优化的基础知识(第 2 部分)。

在 第 3 部分中,我们重点介绍让 Web 站点的页面进入搜索索引所需的知识。搜索索引是 Google 和 Yahoo!® 这样的搜索引擎在用户进行搜索时使用的数据库。如果 Web 页面没有被编入搜索引擎的索引,那么引擎就不会找到它,所以将页面添加到索引中是取得 SEO 成功的关键一步。

我的站点上有多少页面进入了索引?

如 果想知道您的站点上有多少页面进入了索引,那么先做个简单的测试。进入 Google 或者您喜欢的其他搜索引擎,搜索您公司的名称。如果公司名称是一个常见名称(比如 AAA Plumbing 或 Acme Industries),那么再加上地区(AAA Plumbing Peoria)或公司最出名的产品(Acme Industries sheet metal),看看您的站点是否被找到了。

如果发现一个 Web 站点根本 没有被编入搜索索引中,那么通常有两个原因:

  • 站点是新的。如果 Web 站点是刚刚建立的,而且在搜索索引中没有其他站点链接到它,那么搜索引擎还没有发现它。在这种情况下,只需让其他某些站点链接到您的站点。
  • 站点被禁止了。如果搜索引擎认为您的站点采用了不道德的(即黑帽)SEO 做法,就可能会从它们的索引中删除您的所有页面。如果您发现自己处于这种糟糕的境地,那么找一位搜索营销专家来对站点进行分析并找出违反道德的地方,在纠正问题之后,向搜索引擎请求予以 “宽恕”。

如 果幸运的话,在搜索引擎中输入公司名称时,至少会找到您 Web 站点上的一个页面。通常情况是任何特定的搜索引擎只将您的部分页面编入了索引中,但是如果几乎所有页面都被编入了索引,就更好了。没有编入索引的页面越 多,您站点的潜在访问者就越有可能转向您的竞争对手(如果他们的页面已编入索引)。

包含率

首先,计算包含率(inclusion ratio),也就是被搜索引擎编入索引的页面占总页面数的百分比。当然,理想的包含率是 100%,但是稍微低一些也可以让人满意。如果页面中只有不到 50% 被包含在搜索索引中,那么就要认真对待了。

为了计算包含率,将搜索引擎索引中的页面数除以您站点上的页面总数。如果您的 Web 站点相当小,那么估算站点的页面总数可能很容易,但是对于大型站点,有时候很难查明有多少个页面。对于大型站点,可以使用几种方法估算页面数:

对 Web 站点的规模进行估算之后,就要查明站点中有多少页面被编入了索引。Google、Yahoo! Search 和 MSN Search 都提供了 “site:” 操作符,它会报告您需要知道的信息。输入 site:,后面加上您的域名(比如 site:kodak.com),查看返回的结果。更方便的工具是 Marketleap 的免费工具 Saturation Reporting Tool(参见 参考资料),它会显示任何站点在每个搜索索引中的页面数。





回页首


爬行器路径

如果计算包含率的结果很糟糕,那么该怎么办呢?首先,我们回顾一下搜索引擎如何将页面编入索引。搜索引擎使用专门设计的称为爬行器(spidercrawler)的程序来检查站点上的页面。

爬 行器收集每个页面的 HTML,并记录到其他页面的链接,这样以后它就可以去收集这些页面的 HTML。您可以想像到,经过足够长的时间之后,爬行器最终会找到 Web 上的每个页面(至少是每个链接到其他页面的页面)。获得页面,找到页面上的所有链接,然后获得链接到的那些页面,这个过程称为 “在 Web 上爬行”。

因为爬行器是这样工作的,创建对每个页面的链接可以简化让站点被编入索引的任务 —— 我们将这些技术称为爬行器路径(spider path)。您的站点已经包含路径,而且可能已经有了最重要的爬行器路径类型:站点地图。如果站点只包含少量页面,那么站点地图可以列出并链接到站点上的每个页面。

但是,站点地图不应该超过 100 个链接,所以比较大的站点地图必须链接到分类页面,这些页面再链接到站点上的其他页面。最大型的 Web 站点通常划分成针对各个国家的分站,这就需要特殊的站点地图,称为国家地图(country map),其中列出每个国家的名称并链接到各个国家站点的主页。爬行器非常喜欢这种技术。(参见 参考资料 中大型站点地图的示例。)

只有爬行器到了您的站点上,站点地图才会发挥作用,但是还有更加主动的使页面被编入索引的方法。Google 和 Yahoo! 都提供包含程序(inclusion program),专门用来使页面被编入索引。Google 的 beta 程序称为 Sitemaps(参见 参考资料),它是免费的,提供几种向 Google 爬行器通知页面位置的方法。甚至可以请求 Google 对您的一部分页面进行更频繁的索引更新。Yahoo! 提供一个付费的包含程序 SiteMatch(参见 参考资料),它承诺在 48 小时内对您的页面重新编制索引。(Google 对时间没有做出承诺。)

RSS feed 提供了另一种方法,可以在页面发布时使页面迅速地被编入索引。使用 Ping-O-Matic!(参见 参考资料)通知搜索引擎在 RSS feed 有了新条目,新条目常常会在一两天内被编入索引。





回页首


清理爬行器路径

徒步旅行的队伍要让开路者去探索和标出前进路线,但是开路者必须经常清理这些路径,使路径不会损毁或荒废。爬行器路径也是一样的;除非经常检查它们,否则很可能就会阻塞了。

如果您忽视了爬行器的工作方式,爬行器路径就很容易成为爬行器陷阱。对人来说很好的页面却可能阻碍爬行器。爬行器是自动的,所以不会像人类访问者那样填写注册表单。如果链接到站点上的页面所需的操作不仅仅是沿着 HTML 锚标记走,那么这个链接可能会对爬行器隐藏。

这意味着 JavaScript、Flash、frames 和 cookie 也会造成问题。如果您的 Web 页面没有这些技术就根本无法显示,那么页面就不会被爬行器编入索引。另外,如果用户需要这些技术才能使用链接,那么爬行器就无法沿着链接前进。

爬行器只查看 HTML 代码,就像有视力障碍的用户所用的屏幕阅读器一样。要想体会一下爬行器看到了什么,可以在查看页面时禁用浏览器对 cookie、JavaScript 和图形的支持,或者使用文本模式的 Lynx 浏览器或 Lynx Viewer(参见 参考资料)。如果页面可以使用 Lynx 完整地显示,那么它们很可能能够被编入索引。根本不显示或者显示得很不完整的页面不容易被搜索引擎找到。

即使您避免使用这些惹麻烦的技术,仍然可能会给爬行器造成阻碍。爬行器对 HTML 代码的正确性要求非常严格 —— 浏览器就要宽容多了。在浏览器中看起来很好的页面却可能阻碍爬行器,这会使爬行器看不到或误解整个页面或部分页面。HTML 检验服务(参见 参考资料)和 Firefox 浏览器可以发现这些错误。

还 必须注意爬行器对每个页面的内容大小限制。大多数爬行器只对页面中的前 100,000 个字符编制索引。这个数字听起来似乎很大,但是如果在页面中添加 JavaScript 程序和样式表,或者把整个用户手册放进一个 PDF 文件中,那么很快就会达到这个限制。所以,可以考虑将手册分割为每章一个 PDF,并将所有 JavaScript 和样式表代码转移到外部文件中。





回页首


欢迎爬行器

清 理了爬行器路径之后,必须确保爬行器是受欢迎的。最明显的建议是,当爬行器到达时,确保站点正在运行,能够做出响应。因为不知道爬行器什么时候会访问您的 站点,频繁地停机(即 “维护时间窗”)会有风险,如果爬行器在站点停机时到来,它就会认为站点是失效的,从而转到其他站点去。

如果站点的响应速度非常慢,这几乎和完全失效一样糟糕,因为爬行器是按进度计划运行的。对于缓慢的站点,它们编入索引的页面更少,而且再次访问的频率更低,因为在同样的时间内它们能够在其他地方处理更多的页面。

即使您的站点通常不停机而且速度很快,仍然有可能由于错误地编写了机器人指令(robots instruction) 而将爬行器拒之门外。可以使用 robots.txt 文件让爬行器避开某些页面、目录或整个站点,所以如果站点的指令编写错了,就可能赶走爬行器。另外,每个页面都可以有一个 robots 标记,它指示爬行器是否将这个页面编入索引,以及是否沿着其中的链接前进(参见 参考资料。)





回页首


留住爬行器

即使您的站点欢迎爬行器,也不能保证它以后不会遗弃这个站点。

会 阻碍爬行器的一个问题是对页面使用长的动态 URL。许多动态 URL 需要用参数来选择要显示的内容,比如来自 Canada 产品目录的产品 2372 的法文说明。爬行器很反感这些动态站点,因为参数的组合几乎是无穷的 —— 爬行器不希望在站点中迷路。当爬行器看到 URL 超过 1,000 个字符或者其中的参数超过两个时,它们往往会跳过这些页面。

如果您的站点存在这些有问题的 URL,就必须参考 Web 服务器的文档,研究如何改变 URL 的形式以使爬行器满意。例如,Apache 使用 “mod_rewrite” 功能(参见 参考资料)修改 URL,其他 Web 服务器也有相似的功能。

所 谓的 “会话标识符” 也会吓走爬行器。一些程序员在 URL 中创建一个参数,用来捕捉关于当前访问者的信息(常常用 “id=” 加上惟一的字母数字编码来标识)。爬行器很讨厌这种技术,因为它导致成百上千的不同 URL 显示同样的内容。程序员应该将这一信息存储在 Web 应用服务器的会话层或者 cookie 中。(但是,正如前面讨论的,显示页面应该不需要 cookie,否则爬行器无法将它编入索引。)

分析了动态页面之后,还要注意另一个可能给页面造成麻烦的问题。重定向 这种技术告诉浏览器和爬行器请求的 URL 已经改变了。例如,如果您的公司改名了,它可能也会改变 Web 站点的域名,所以重定向可以将来自旧 URL 的所有访问者转到新的 URL。但是,对于爬行器有效的重定向方法只有一种:服务器端重定向,也称为 301 重定向(参见 参考资料)。其他重定向技术对浏览器是有效的,比如元刷新重定向和 JavaScript 重定向,但是爬行器无法沿着这些重定向的路径前进,这会使重定向的页面不被编入搜索索引。





回页首


结束语

显然,页面必须先被编入索引,然后搜索引擎才能找到它们,但是大多数页面没有被编入索引。在 1999 年,所有 Web 页面中大约有 16% 被搜索引擎编入了索引,但是几年之后,这个比例大大下降了:在 2001 年,估计只有 0.03% 的页面被编入了索引。

既然这个比例如此低,您的站点中很可能有许多页面没有被编入索引,因此这些页面不可能被搜索到。您现在知道应该如何解决这个问题了。

但是,仅仅进入搜索索引还不够。在这个 SEO 系列的第 4 部分中,我们将讨论大型 Web 站点特有的一些搜索营销问题,比如如何对动态页面进行优化、如何跨多国站点工作以及如何让大型团队进行协同工作。



参考资料

学习

获得产品和技术
  • OptiSpider($98)或 Xenu(免费应用程序):查明站点中有多少个页面。
  • Marketleap 的免费工具 Saturation Reporting Tool:查明任何站点在每个搜索引擎中编入的页面数。
  • Google Sitemaps:请试用这个包含程序的免费 beta 版本。
  • Yahoo! Small Business SiteMatch:请研究这个付费的包含程序,它承诺在 48 小时内对您的页面重新编制索引。
  • Ping-O-Matic!:它会通知搜索引擎在 RSS feed 有了新条目。
  • Lynx 浏览器:用这个文本模式的浏览器体会一下页面阅读器(和搜索引擎爬行器)如何看待您的站点。
  • Lynx Viewer:如果不想下载 Lynx 浏览器,可以使用这个工具。
  • W3C Markup Validation Service:用这个免费服务来检查 HTML 和 XHTML Web 文档是否符合 W3C Recommendations 和其他标准。

讨论


作者简介

Photo of Bill Hunt

Bill 负责一个 Search Engine Marketing Strategists 团队,他们帮助财富二百强公司用全球化视角管理企业的 SEM 规划。Bill 当前被认为是企业和国际 SEM 策略方面最出色的专家,他是受到高度好评的 Search Engine Marketing, Inc.(由 IBM Press 出版)一书的合作作者。Bill 获得了马里兰大学(东京校区)的亚洲研究和日语 B.A. 学位,以及加利福尼亚州立大学(洛杉矶)的国际商务学士学位。他还是海军陆战队的退伍兵。


Photo of Mike Moran

Search Engine Marketing, Inc. 一书的合作作者 Mike Moran 是一位 IBM Distinguished Engineer,他在 IBM Research、Lotus 和其他 IBM 软件方面从事搜索技术研究已经超过了 20 年。他在 1989 年领导了开发第一个商业语言学搜索引擎的产品团队,并获得了搜索和检索技术方面的四项专利。他领导过 ibm.com 最初的搜索引擎营销策略的开发,以及与 ibm.com 的站点搜索技术的集成。除了搜索技术之外,他还在内容管理、个性化和 Web 尺度方面的 ibm.com 项目中发挥先锋作用。Mike 当前是 ibm.com Web Experience 的经理,负责站点的设计、信息架构、技术架构和运作。

评论

相关推荐

    百度官方搜索引擎优化指南2.0word版

    4. **移动优化**:随着移动设备的普及,移动友好成为搜索引擎优化的重要部分。响应式设计或独立的移动站点是必要的,确保在不同设备上都能提供良好用户体验。 5. **加载速度**:网站加载速度是影响用户体验和搜索...

    一个基于web的搜索引擎实现

    描述中提到的“一个简单的WEB搜索引擎实现”,暗示我们将关注的是一个简化版的搜索引擎,它可能不包含所有高级特性,但足以展示搜索引擎的基本工作原理。描述还提到了Apache Lucene,这是一个流行的开源全文搜索引擎...

    搜索引擎优化(SEO)知识完全手册+asp.net实现代码+网上资料汇总

    搜索引擎优化(SEO)是一种网络营销策略,旨在提升网站在搜索引擎结果页面(SERP)中的自然排名,从而增加流量。本手册将涵盖以下几个关键领域: 1. **关键词研究**:了解目标用户在搜索时使用的词汇至关重要。SEO...

    迅龙中文Web搜索引擎0.7( C# .NET)核心代码

    迅龙中文Web搜索引擎0.7(C# .NET)核心代码是一个开源项目,旨在提供一个针对中文网页的高效、可定制的搜索解决方案。该搜索引擎的实现基于C#编程语言和.NET框架,这使得开发者能够利用微软的开发环境进行快速开发和...

    搜索引擎优化(SEO)知识完全手册.rar

    **搜索引擎优化(SEO)知识完全手册** 在互联网时代,搜索引擎优化(SEO)是提升网站可见性和流量的关键策略。本手册将全面深入地探讨SEO的基本概念、技术和实践,旨在帮助网站所有者、网络营销人员以及对SEO感兴趣...

    java web项目实战大全源码搜索引擎

    3. **WebSpider(网络爬虫)**:为了获取网页数据并构建搜索引擎的索引,项目可能包含了网页抓取的实现。WebSpider用于自动化地从互联网上抓取信息,这涉及到URL管理、HTML解析和网络请求处理。开发者需要掌握网络...

    迅龙中文Web搜索引擎(.NET)-开源的搜索引擎程序C#编写

    迅龙中文Web搜索引擎是一款由C#编程语言编写的开源搜索引擎程序,它为开发者提供了一种高效、易用的方式来实现中文网页的索引与检索功能。这款软件的核心在于其强大的文本处理和搜索算法,能够有效地处理中文分词和...

    完整版 web应用开发 web网站建设实用教程 第9讲 搜索引擎优化SEO(共63页).ppt

    搜索引擎优化(SEO)是Web应用开发和网站建设中的关键环节,旨在提升网站在搜索引擎结果页面(SERP)上的排名,从而获得更多的有机流量。SEO的产生源于早期网页对搜索引擎友好性的不足,以及技术发展与搜索算法之间...

    搜索引擎优化的高层编程指导

    《搜索引擎优化的高层编程指导》是一本专注于搜索引擎开发高级编程技术的专著,旨在帮助读者深入理解并掌握搜索引擎的核心技术和优化策略。这本书以其丰富的实际案例和广泛的类型设计,为那些热衷于搜索引擎编程的...

    基于web搜索引擎的设计与实现-学位论文.doc

    2. 搜索引擎的结构:搜索引擎的系统结构主要包括网络机器人、索引引擎和 Web 服务器三个部分。网络机器人负责爬取网页,索引引擎负责将爬取的网页进行索引,并将其存储到数据库中,Web 服务器负责接受客户端请求并...

    Lucene搜索引擎开发权威经典 光盘

    应用本书介绍的所有知识构建一个桌面搜索引擎和一个Web搜索引擎。这部分作为对前面所有内容的总结。第6部分:Nutch搜索引擎框架。介绍了基于Luceng的完整搜索引擎Nutch。 本书适合从Lucene初学者到高级开发人员之间...

    搜索引擎Web爬虫

    搜索引擎Web爬虫是互联网信息获取的关键技术之一,它在数据挖掘、内容分析、网站排名等多个领域都有着广泛的应用。Web爬虫,也称为网络蜘蛛或网页抓取器,是一种自动浏览互联网并下载网页的程序。它按照一定的规则...

    搜索引擎优化行业术语大全(五).docx

    3. **SEO(搜索引擎优化)**:全称Search Engine Optimization,是通过对网站结构、内容和页面元素进行调整,以符合搜索引擎的收录和评价规则,提高网站在搜索结果中的排名。SEO需要深入了解搜索引擎的工作原理和...

    搜索引擎web课程设计

    在本课程设计中,我们将深入探讨“搜索引擎web”的构建,这是一个关键的技术领域,它使得互联网上的海量信息变得可检索和易获取。这个项目的目标是设计一个功能强大的搜索引擎,能够处理用户的查询,查找并返回与...

    WEB搜索引擎分析设计与实现.doc

    WEB搜索引擎分析设计与实现 本文主要介绍了基于Internet的搜索引擎的系统结构、主流搜索引擎的工作原理,并利用Heritrix+Lucene框架,分析、设计、实现了“SoEdu”搜索引擎。本文首先介绍了搜索引擎的定义、起源、...

    基于倒排索引表的搜索引擎简单实现

    综上所述,这个项目涵盖了搜索引擎的基础构建模块,从文本预处理(中文分词)到索引构建(倒排索引),再到Web服务端的搜索接口实现。通过学习和实践这个项目,可以深入理解搜索引擎的工作原理,提升Java编程和Web...

    基于web搜索引擎的与实现.doc

    搜索引擎的结构主要包括三个部分:网络机器人、索引引擎和 Web 服务器。网络机器人负责爬取和解析网络资源,索引引擎负责对爬取的资源进行索引和分类,Web 服务器负责接受客户端的请求并返回搜索结果。 四、网络...

Global site tag (gtag.js) - Google Analytics