`
Ryee
  • 浏览: 284938 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

SEO前传 - 解读搜索引擎(采集)

阅读更多
seo的一个基础工作是将网页提供给搜索引擎,那么要完成这项工作有两种方法:1、主动  2、被动


为什么这样说这里要解读一下搜索引擎的原理。

我们在使用搜索引擎查询时,搜索引擎会返回给用户一个查询的结果页,这个页面时在数亿的结果中给你答案的过程。

这些页面从何得来呢?

引擎是一个软件,运行在数据集合上的程序,他两个基础的部件:1、获取数据的部件  2、数据分析的部件

第一部分,数据获取是解决海量网页的抓取问题
解决这个问题依靠的是 技术+策略,我们知道再好技术也会有瓶颈,他需要依靠一定的算法和策略 才能做出我们期待的事情。

因此,引擎对抓取的策略是seo的关键所在。一般的引擎对数据的抓取会采用多种策略的组合以此来降低消耗和提升抓取效率。

这就想你所知道的“定期搜集"、“增量搜集”等这些策略,站在引擎的角度,他要面对的是整个互联网的数据抓取,所以在收集的策略上更加倾向于整体。(注:做seo不要从一个网站的角度来看问题)

在具体搜集过程中,如何抓取一篇篇的网页,也可以有不同的考虑。最常见的一种是所谓“爬取”:将Web上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S(或者说“种子”)开始,沿着网页中的链接,按照先深、先宽、或者某种别的策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)。真正的系统其实是多个“蜘蛛”同时在爬。
(注:这点你可以在网站的Log中得到验证)

另外一种方式是在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的URL,则将它们对应的网页也抓回来,并将这些新URL也放到集合S中;如果S中某个url对应的网页不存在了,则将它从S中删除。这种方式也可以看成是一种极端的先宽搜索,即第一层是一个很大的集合,往下最多只延伸一层。

还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址(为了宣传自己,通常会有这种积极性),系统在一定时间内(2天到数月不等)定向向那些网站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。

如今的搜索引擎已经完善了上述的所有方法,在具体的实践过程中会因不同条件的组合采取不同的策略,即使对相同的站点也可以同时采用不相同的策略。

上一节 SEO前传 - 解读搜索引擎(采集) 编辑
下一节 解读搜索引擎(预处理)
分享到:
评论

相关推荐

    SEO秘籍--搜索引擎优化专题(五、SEO资料).pdf

    SEO秘籍--搜索引擎优化专题(五、SEO资料).pdf

    SEO秘籍--搜索引擎优化专题(三、SEO关键词优化).pdf

    SEO 秘籍 -- 搜索引擎优化专题(三、SEO 关键词优化) 搜索引擎优化(SEO)是一种通过了解搜索引擎的运行规则和算法来提高网站在搜索引擎排名的技术。其中,关键词优化是 SEO 中最重要的一个环节。选择合适的关键词...

    SEO知识完全手册 SEO从入门到精髓 SEO--搜索引擎优化培训教程 Google排名秘籍

    SEO知识完全手册 SEO从入门到精髓 SEO--搜索引擎优化培训教程 2008搜索引擎营销大会SEO讲演 Google排名秘籍

    SEO秘籍--搜索引擎优化专题(五、SEO资料)[参照].pdf

    【SEO秘籍--搜索引擎优化专题】是一份关于搜索引擎优化(SEO)的专业资料,旨在帮助读者理解和掌握提升网站在搜索引擎排名的技巧。SEO的核心目标是通过优化网站,使其在搜索引擎的自然搜索结果中获得更高的曝光度,...

    SEO秘籍--搜索引擎优化专题(二、揭秘10种SEO作弊).pdf

    **搜索引擎优化(SEO)是提升网站在搜索引擎结果页面(SERP)中排名的关键技术,而SEO作弊则是指采用不道德或违反搜索引擎规则的手段来快速提高排名。以下是一些常见的SEO作弊方法及其后果:** 1. **黑链(Black ...

    SEO秘籍--搜索引擎优化专题(二、揭秘10种SEO作弊)[整理].pdf

    【SEO作弊揭秘】在搜索引擎优化(SEO)领域,有些手段虽然能短暂提升排名,但违反了搜索引擎的规则,被称为作弊。这些方法虽然可能带来短期效益,但风险极高,可能导致网站被搜索引擎惩罚,甚至彻底从搜索结果中消失...

    SEO--搜索引擎排名秘笈及优化原理[总结].pdf

    【SEO搜索引擎排名秘笈及优化原理】 SEO(Search Engine Optimization),即搜索引擎优化,是一种通过改善网站结构、内容和代码等各方面,以提升网站在搜索引擎自然搜索结果中的排名的技术。优化的目标是提高网站的...

    SEO源码-搜索引擎泛解析源码

    SEO,全称Search Engine Optimization,即搜索引擎优化,是一种利用搜索引擎的搜索规则来提高目标网站在有关搜索引擎内自然排名的方式。这个“SEO源码-搜索引擎泛解析源码”应该是用于帮助网站提升其在搜索引擎中的...

    SEO教程-搜索引擎优化魔法书

    **SEO教程——搜索引擎优化魔法书** 在这个数字时代,搜索引擎优化(SEO)已成为任何在线业务不可或缺的一部分。它是一种策略,旨在提升网站在搜索引擎结果页(SERP)中的排名,从而增加可见性和流量。"SEO教程-...

    SEO智慧-搜索引擎优化与网站营销革命

    这是一本不仅系统讲述搜索引擎优化(SEO)的原理、技法、思维、 经验的畅销作品,而且论述了市场学、营销学、心理学怎样与搜索营销形成综合战略的经典著作。 从说明网站的搭建该怎样围绕搜索引擎优化开始,到网站...

    我爱我家网站收录问题分析-SEO问题诊断-SEO搜索引擎优化

    【SEO问题诊断与搜索引擎优化策略】 在SEO领域,搜索引擎优化的目标是提高网站在搜索引擎结果中的排名,从而增加网站的可见性和流量。针对“我爱我家”网站的收录问题,我们进行了深入的分析,发现了以下几个关键...

    SEO长尾关键词查询-针对搜索引擎

    SEO长尾关键词查询-针对搜索引擎 虽然目前整体对SEO优化不太优化,各搜索引擎SEO的效果越来越不明显,哪怕有了排名之后都曝光量减少,但是对软文撰写来说,还是值得参考的。

    人工智能-项目实践-搜索引擎-毕设题目-基于搜索引擎优化的健康问答系统

    ask-seo: 搜索引擎模块 ->ask-model ask-spider: 爬虫模块,独立的一个模块 ->ask-dao ask-model: 模型层模块,负责存放各种bean ask-dao: 数据持久层模块,负责数据库的CURD操作 ->ask-model ask-service: 业务层...

    seo电子书-搜索引擎排名秘籍、seo圣经中文版

    搜索引擎排名秘籍、seo圣经中文版搜索引擎排名秘籍、seo圣经中文版

    SEO Monitor - 搜索引擎优化监视器

    SEO Monitor,搜索引擎优化监视器,是 SEO 工作的好帮手。使用 SEOM,轻松掌握 SEO 工作阶段性的成果。 <br>SEOM 功能类似 GoogleMon,但比其更强大、更准确。 <br>简洁易用,界面友好; 绿色软件,无需...

    苹果CMS免费SEO插件-免费采集伪原创发布推送插件

    苹果CMS免费SEO插件是一款专为苹果CMS内容管理系统设计的工具,旨在提升网站的搜索引擎优化(SEO)效果。这款插件具有多个功能模块,包括关键词采集、文章采集、伪原创生成、自动发布以及搜索引擎自动推送,帮助用户...

    SEO-搜索引擎优化培训教程

    《SEO-搜索引擎优化培训教程》是一本针对程序员和学习者深入了解和掌握SEO技术的专业教程。在互联网信息爆炸的时代,搜索引擎优化对于网站的可见性和在线业务的成功至关重要。此教程旨在帮助读者提升网站在搜索引擎...

    一步一步SEO - 一步一步搜索引擎优化

    **SEO**(Search Engine Optimization)即搜索引擎优化,是一项旨在提高网站在搜索引擎结果页中的自然排名的技术。这项技术通过对网站内部和外部因素进行优化来实现这一目标,使得目标关键词在搜索结果中排名更靠前,...

Global site tag (gtag.js) - Google Analytics