论坛首页 综合技术论坛

搜索引擎基础(Search Engine Basics)(一)

浏览 4086 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-04-28  

当你想在网上找某些资料的时候,一般都用搜索引擎。输入一些词或短语,就能找到你需要的结果。当然,也不一定能找到令人满意的结果。

在互联网早期,不是你现在所用到的那样。没有可交互的站点,只是用FTP上传下载文件而已。

用户可以通过搜索方便找到需要的文件。如果认识上传文件的人,通过他给的地址,你就很快能找到这个文件。

在网上寻找一个文件简直就是个痛苦的过程,极大的考验一个人的耐心,有几个McGill大学的学生决定寻找一个简单的途径。终于在1990年,Alan Emtage开发了第一个搜索工具。他的发明,就是文件的索引,叫做Archie.

Archie貌似是40年代处一个连环画的角色,很遗憾没啥关系。之所以叫做Archie是因为Archives这个单词比较长。。。。。

Archie实际上并不是今天所用到的搜索引擎,但是在那个时候,许多上网的人都会用到它,它会把下载文件的目录并排序。并把列表存在网站的数据库中。

Archie的搜索并不像今天的搜索引擎一样支持自然语言。它索引计算机的文件,并很容易的去定位。

在1991年,另一个名叫Mark McCahill的学生,想到了既然能搜索文件,也能搜索到在文件中无格式的文本。可是并没有这样的工具,所以他就写个程序叫做Gopher,用来索引无格式文本,之后就出现了第一个Web站点。

之后Archie的成员加入了这个项目,Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) 和 Jughead (Jonzy’s Universal Gopher Hierarchy Excavation and Display) 用来寻找文件并存储在Gopher Index System.

这些程序的实质都是一样的,允许用户通过关键字来寻找文件的索引信息。

至此,搜索已经变得成熟起来。直到1993年,类似于现在的搜索引擎出现了,那就是由Matthew Gray开发的Wandex。Wandex是第一个在WEB上索引文件,它是搜索索引页面的程序。这就是WEB爬虫。是所有后来爬虫的基础。从1993-1998,主要的搜索引擎就被建立起来了,下面有个列表:

  • Excite — 1993
  • Yahoo! — 1994
  • Web Crawler — 1994
  • Lycos — 1994
  • Infoseek — 1995
  • AltaVista — 1995
  • Inktomi — 1996
  • Ask Jeeves — 1997
  • Google — 1997
  • MSN Search — 1998

今天,搜索引擎是个复杂的程序,能用词或短语搜寻文件,相关文档等等,难以置信的是搜索引擎仅仅有15年的历史。 考虑看看能用它们来寻找到什么。。。

   发表时间:2008-05-07  
LZ,有没有一些关于 网页分析的文章 能把网页里面的数据区分出来
0 请登录后投票
   发表时间:2008-05-07  
基本的方法就是:
1.正则表达式。
2.XPATH

你可以去看看网页爬虫的源代码,JAVA的开源很多了。www.open-open.com
0 请登录后投票
   发表时间:2008-06-13  
我现在就是做网页抓取,把网上很多的信息给抓取分析成一条一条的信息,最主要的还是用的是正则表达式。
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics