搜索引擎基础（Search Engine Basics）(一)

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 4097 次

锁定老帖子主题：搜索引擎基础（Search Engine Basics）(一) 精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
风雪涟漪等级: 性别: 文章: 258 积分: 498 来自: 大连->北京	发表时间：2008-04-28 相关推荐: Torrent：搜索许多Torrent引擎以获取电视连续剧磁体链接的API 搜索引擎基础（Search Engine Basics）(四) 搜索引擎基础（Search Engine Basics）(三) 搜索引擎基础（Search Engine Basics）(五) 搜索引擎基础（Search Engine Basics）(二) 更多相关推荐互联网当你想在网上找某些资料的时候，一般都用搜索引擎。输入一些词或短语，就能找到你需要的结果。当然，也不一定能找到令人满意的结果。在互联网早期，不是你现在所用到的那样。没有可交互的站点，只是用FTP上传下载文件而已。用户可以通过搜索方便找到需要的文件。如果认识上传文件的人，通过他给的地址，你就很快能找到这个文件。在网上寻找一个文件简直就是个痛苦的过程，极大的考验一个人的耐心，有几个McGill大学的学生决定寻找一个简单的途径。终于在1990年，Alan Emtage开发了第一个搜索工具。他的发明，就是文件的索引，叫做Archie. Archie貌似是40年代处一个连环画的角色，很遗憾没啥关系。之所以叫做Archie是因为Archives这个单词比较长。。。。。 Archie实际上并不是今天所用到的搜索引擎，但是在那个时候，许多上网的人都会用到它，它会把下载文件的目录并排序。并把列表存在网站的数据库中。 Archie的搜索并不像今天的搜索引擎一样支持自然语言。它索引计算机的文件，并很容易的去定位。在1991年，另一个名叫Mark McCahill的学生，想到了既然能搜索文件，也能搜索到在文件中无格式的文本。可是并没有这样的工具，所以他就写个程序叫做Gopher，用来索引无格式文本，之后就出现了第一个Web站点。之后Archie的成员加入了这个项目，Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) 和 Jughead (Jonzy’s Universal Gopher Hierarchy Excavation and Display) 用来寻找文件并存储在Gopher Index System. 这些程序的实质都是一样的，允许用户通过关键字来寻找文件的索引信息。至此，搜索已经变得成熟起来。直到1993年，类似于现在的搜索引擎出现了，那就是由Matthew Gray开发的Wandex。Wandex是第一个在WEB上索引文件，它是搜索索引页面的程序。这就是WEB爬虫。是所有后来爬虫的基础。从1993-1998,主要的搜索引擎就被建立起来了，下面有个列表： Excite — 1993 Yahoo! — 1994 Web Crawler — 1994 Lycos — 1994 Infoseek — 1995 AltaVista — 1995 Inktomi — 1996 Ask Jeeves — 1997 Google — 1997 MSN Search — 1998 今天，搜索引擎是个复杂的程序，能用词或短语搜寻文件，相关文档等等，难以置信的是搜索引擎仅仅有15年的历史。考虑看看能用它们来寻找到什么。。。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

yefeng 等级: 初级会员性别: 文章: 245 积分: 30 来自: 杭州	发表时间：2008-05-07 ＬＺ，有没有一些关于　网页分析的文章　能把网页里面的数据区分出来
返回顶楼	回帖地址 0 0 请登录后投票

风雪涟漪等级: 性别: 文章: 258 积分: 498 来自: 大连->北京	发表时间：2008-05-07 基本的方法就是： 1.正则表达式。 2.XPATH 你可以去看看网页爬虫的源代码，JAVA的开源很多了。www.open-open.com
返回顶楼	回帖地址 0 0 请登录后投票

glamey 等级: 初级会员性别: 文章: 391 积分: 40 来自: bj	发表时间：2008-06-13 我现在就是做网页抓取，把网上很多的信息给抓取分析成一条一条的信息，最主要的还是用的是正则表达式。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 综合技术版

跳转论坛: