`

网页搜索基础知识

 
阅读更多

转自:http://www.cnblogs.com/zeuslin/archive/2008/06/01/1211461.html

今天认真地学习网页搜索盯着的基础知识,收获不少,摘来要点如下:

 

提交搜索结果包含三个主要过程: 
抓取:goolebot (robot,spider,bot,爬虫)使用算法流程: 计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。  在抓取的过程中会生成一个网页网址列表,然后程序通过网址访问网站抓取信息,而在访问的过程中又会不断发现新的网址来丰富原有的网页网址列表。
编制索引:将抓取过来的信息分类存好。
提供:提供涉及排序问题,主要标准之一——重要性。重要性越大排在越前边。重要性是通过这个网页被其他网页链接的多少。

动态网页:
理论上spider会索引动态生成的网页,包括 .asp 页、.php 页以及网址上有问号的网页。 不过,这些网页可导致抓取工具出错,因此可能会被忽略。原因是那些问号可能产生大量的网页,傻傻的爬虫程序进去以后就出不来了,程序进入一个死循环,从而会消耗较多的带宽资源。所以变聪明的爬虫对这些有了防范之心,从而也导致抓取的质量不高。所以从这角度可以得到验证我之前学到的另外两个理论:A,伪静态技术,主要就是将动态页网址里边的问号隐藏,给动态网页套上一个html的网址。网址对爬虫友好。B,一个网站生成太多的网址会影响到收录的质量的。这是spider所以防范的。

网页参数方面:
1、不要使用 &ID= 作为您网址的参数
2、动态网页有助于缩短参数长度并减少参数数目。 通过截掉不必要的参数尽量缩短网址。 
3、建议网址中使用标点符号,网址中使用连字符 (-) 而尽量避免使用下划线 (_)
4、尽可能避免在网址中使用会话 ID, 建议您使用 Cookie 代替

链接方面:
1、如果您永久重定向一个网页至另一个网页,请使用永久重定向 (301)。 
2、尽可能使用绝对链接,而不是相关链接。(例如,当与您网站上的另一网页链接时,请链接到 www.example.com/mypage.html 而不要仅仅链接到 mypage.html)。 
3、使用 HTML 构建网站结构和导航是一个不错的方法
4、使用ajax技术时,规范的ajax链接可以照顾到爬虫,还有那些不支持js的设备。举个例如下<a href="ajax.htm?foo=32" onClick="navigate('ajax.html#foo=32');return false">foo 32</a>

其他:
1、确保您的标题标记准确且具有描述性,而且每个网页均有一个描述性标题标记。将标题标记放到可以展现各网页最重要主题的位置。但太多的描述与关键字,可能会被认为是垃圾网站。
2、通过 iFrame 显示的内容可能不会被编入索引
3、帮助收录的Sitemap:网站地图可以帮助你的网站更全更快速地为搜索引擎所收录。(不然有些页面隐藏了些可能就会被spider忽略掉)

ps:加大的绿色有字体表示建议与推荐的处理方法,黄色底纹的表示危险,不建议用~~

分享到:
评论

相关推荐

    网页设计基础知识(HTML基础).pdf

    网页设计基础知识是指在网页设计中所需要的基本概念和技术。它涉及到网页的定义、网页的组成元素、网页的表现形式、网页设计的基本要素等方面。 1. 网页的定义 网页是指存放在网络服务器上的一个完整信息集合体,它...

    网页制作基础知识html

    网页制作的基础知识主要围绕HTML(HyperText Markup Language)展开,这是一种用于创建网页的标准标记语言。HTML是互联网的基石,它让网页具备结构和内容。在本教程中,我们将深入探讨HTML的基本概念、语法以及如何...

    学校教师课件 网页设计基础知识.rar

    "学校教师课件 网页设计基础知识.rar" 提供的资源旨在帮助学生和教师深入理解这一主题,涵盖了HTML(超文本标记语言)和Dreamweaver等关键工具的使用。 HTML(HyperText Markup Language)是网页开发的基础,是一种...

    SEO基础知识及操作技巧手册电子书

    本手册主要涵盖了SEO的基础知识和实际操作技巧,帮助读者深入理解并掌握这一技能。 一、SEO基础知识 1. 搜索引擎工作原理:了解搜索引擎如何抓取网页、索引内容以及根据用户查询提供相关结果至关重要。这包括爬虫...

    HTML网页基础知识介绍ppt课件.ppt

    HTML网页基础知识介绍主要涵盖网页设计的基本概念,包括网站和网页的定义、首页和主页的区别、网页的表现形式,以及网页的版块结构和基本构成要素。下面是对这些知识点的详细阐述: 1. **网站与网页**: - **网站*...

    网站seo基础知识介绍

    理解并实践这些基础知识,能够帮助初学者建立网站优化的基本框架,进一步深入学习和实践,将有助于提升网站的搜索引擎排名,从而增加网站的曝光率和流量。随着搜索引擎算法的不断更新,SEO从业者需要持续学习和适应...

    搜索引擎的基础知识.pdf

    搜索引擎的基础知识.pdf 搜索引擎是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 ...

    asp网页设计及html基础知识应用

    ASP网页设计及HTML基础知识是构建动态网页的关键技术。ASP(Active Server Pages)是微软公司推出的一种服务器端脚本环境,主要用于创建交互式的Web应用程序。HTML(HyperText Markup Language)则是网页设计的基础...

    计算机基础知识练习题库

    计算机基础知识练习题库涵盖了计算机基础知识的各个方面,包括计算机的历史、结构、组成、应用领域、数据表示、布尔运算、CPU、内存储器、总线、软件、操作系统、计算机病毒、杀毒软件、Windows XP 操作系统、计算机...

    前端面试基础知识汇总

    在前端开发领域,面试时常常会涉及到一些基础知识的考察,这些基础知识包括但不限于HTML、CSS和JavaScript等。在实际的面试中,面试官往往会要求应聘者对某些特定的概念、最佳实践、问题解决方法等有所了解和掌握。...

    电脑基础知识入门(world文件)

    【电脑基础知识入门】 电脑基础知识是每一个使用计算机的人都需要掌握的基本技能,无论你是学生、上班族还是退休人士,了解这些基础知识都将使你在日常生活中更加得心应手。本篇将深入浅出地介绍电脑的基础概念、...

    前端基础知识讲解.pdf

    CSS基础知识讲解: CSS(层叠样式表)是一种用来控制网页内容表现样式的标记语言。通过CSS可以控制HTML元素的字体、颜色、大小、布局以及其它样式。 1. CSS选择器: CSS通过选择器来定位页面上的HTML元素,并为...

    《网页设计基础》作者史晓燕

    总的来说,《网页设计基础》这本书是学习网页设计的理想起点,无论你是完全的新手还是希望巩固基础知识的设计师,都能从中受益。通过深入学习,你将能够创建出既美观又功能齐全的网页,满足用户需求,提升网站价值。

    DIV+CSS 网页布局常用基础知识

    下面我们将深入探讨`DIV+CSS`网页布局的基础知识和规范。 **CSS命名规范**是确保代码可读性和维护性的关键。文件通常按照功能划分为不同的样式表,例如: 1. `global.css`:全局样式,适用于整个网站。 2. `layout....

    38、网络搜索--电脑基础知识.docx

    《网络搜索:电脑基础知识》 网络搜索是获取信息的关键途径,尤其在当今信息化社会,它已成为我们日常生活中不可或缺的一部分。本文将深入浅出地介绍如何有效地进行网络搜索,包括使用搜索引擎,以及对图片和视频的...

    (SEO)基础知识及操作技巧手册》.rar

    《搜索引擎优化(SEO)基础知识及操作技巧手册》.rar 是一个关于SEO的压缩包文件,包含了一份详尽的SEO学习资料。SEO,全称为搜索引擎优化,是互联网营销领域中的核心策略之一,旨在提升网站在搜索引擎自然搜索结果...

    DIV+CSS_网页布局常用基础知识.pdf

    本资料主要讲解了`DIV+CSS`在网页布局中的基础知识,包括常见元素的命名规范、CSS书写规范和方法。 首先,网页的组成部分通常包括页眉(header)、主要内容(content)、容器(container)、页脚(footer)、版权...

    Dreamweaver CC 从入门到高手视频教程下载第1章 网页和网站基础知识.zip

    本教程的第一章着重讲解了网页和网站的基础知识,这对于任何想要踏入网页设计领域的人来说都是至关重要的起点。 首先,章节开始会介绍网页的基本构成元素,包括HTML(超文本标记语言)和CSS(层叠样式表)。HTML是...

    c#打开网页搜索东西

    根据提供的文件信息,我们可以从中提炼出与C#编程语言相关的几个关键知识点,这些知识点主要集中在如何使用C#来实现浏览器控件的操作以及简单的网页搜索功能。 ### 1. 使用WebBrowser控件 #### 1.1 WebBrowser ...

Global site tag (gtag.js) - Google Analytics