`
风雪涟漪
  • 浏览: 506868 次
  • 性别: Icon_minigender_1
  • 来自: 大连->北京
博客专栏
952ab666-b589-3ca9-8be6-3772bb8d36d4
搜索引擎基础(Search...
浏览量:9004
Ae468720-c1b2-3218-bad0-65e2f3d5477e
SEO策略
浏览量:18381
社区版块
存档分类
最新评论

搜索引擎基础(Search Engine Basics)(一)

    博客分类:
  • SEO
阅读更多

当你想在网上找某些资料的时候,一般都用搜索引擎。输入一些词或短语,就能找到你需要的结果。当然,也不一定能找到令人满意的结果。

在互联网早期,不是你现在所用到的那样。没有可交互的站点,只是用FTP上传下载文件而已。

用户可以通过搜索方便找到需要的文件。如果认识上传文件的人,通过他给的地址,你就很快能找到这个文件。

在网上寻找一个文件简直就是个痛苦的过程,极大的考验一个人的耐心,有几个McGill大学的学生决定寻找一个简单的途径。终于在1990年,Alan Emtage开发了第一个搜索工具。他的发明,就是文件的索引,叫做Archie.

Archie貌似是40年代处一个连环画的角色,很遗憾没啥关系。之所以叫做Archie是因为Archives这个单词比较长。。。。。

Archie实际上并不是今天所用到的搜索引擎,但是在那个时候,许多上网的人都会用到它,它会把下载文件的目录并排序。并把列表存在网站的数据库中。

Archie的搜索并不像今天的搜索引擎一样支持自然语言。它索引计算机的文件,并很容易的去定位。

在1991年,另一个名叫Mark McCahill的学生,想到了既然能搜索文件,也能搜索到在文件中无格式的文本。可是并没有这样的工具,所以他就写个程序叫做Gopher,用来索引无格式文本,之后就出现了第一个Web站点。

之后Archie的成员加入了这个项目,Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) 和 Jughead (Jonzy’s Universal Gopher Hierarchy Excavation and Display) 用来寻找文件并存储在Gopher Index System.

这些程序的实质都是一样的,允许用户通过关键字来寻找文件的索引信息。

至此,搜索已经变得成熟起来。直到1993年,类似于现在的搜索引擎出现了,那就是由Matthew Gray开发的Wandex。Wandex是第一个在WEB上索引文件,它是搜索索引页面的程序。这就是WEB爬虫。是所有后来爬虫的基础。从1993-1998,主要的搜索引擎就被建立起来了,下面有个列表:

  • Excite — 1993
  • Yahoo! — 1994
  • Web Crawler — 1994
  • Lycos — 1994
  • Infoseek — 1995
  • AltaVista — 1995
  • Inktomi — 1996
  • Ask Jeeves — 1997
  • Google — 1997
  • MSN Search — 1998

今天,搜索引擎是个复杂的程序,能用词或短语搜寻文件,相关文档等等,难以置信的是搜索引擎仅仅有15年的历史。 考虑看看能用它们来寻找到什么。。。

分享到:
评论
4 楼 glamey 2008-06-13  
我现在就是做网页抓取,把网上很多的信息给抓取分析成一条一条的信息,最主要的还是用的是正则表达式。
3 楼 风雪涟漪 2008-05-07  
基本的方法就是:
1.正则表达式。
2.XPATH

你可以去看看网页爬虫的源代码,JAVA的开源很多了。www.open-open.com
2 楼 yefeng 2008-05-07  
LZ,有没有一些关于 网页分析的文章 能把网页里面的数据区分出来
1 楼 Virgo_S 2008-05-02  
今天有学到了,搜索的历史,呵呵

相关推荐

    网络分析仪基础Network Analyzer Basics

    网络分析仪基础知识涵盖了一系列重要的概念和操作,包括但不限于射频基础、传输线理论、史密斯图(Smith chart)、反射、传输、散射参数(S参数)、网络分析仪的硬件组成、误差建模、准确度提升、校准技术以及频率...

    Introduction to Information Retrieval:19 Web search basics

    ### 信息检索导论:网络搜索基础 #### 背景与历史 互联网的发展始于浏览器的设计,这使得用户能够轻松查看HTML标记语言中的内容。这一简单而便捷的功能为新用户提供了一个无需深入学习或具备专业技能就能创建自己...

    CityEngine_2011_Tutorials数据

    CityEngine是一款强大的3D城市建模软件,由Esri公司开发,广泛应用于城市规划、景观设计、影视制作等领域。本教程资料“CityEngine_2011_Tutorials数据”特别针对2011版本,旨在帮助用户掌握该软件的基本操作和功能...

    Elasticsearch 一个开源的搜索和数据分析引擎

    Elasticsearch 是一款基于 Apache Lucene 开发的开源搜索引擎和数据分析平台。它以其强大的搜索能力、高性能的数据处理速度以及易于扩展的特点,在大数据处理领域占据了一席之地。Elasticsearch 支持实时数据处理、...

    LabWindows CVI BASICS I & II

    本系列教程“LabWindows CVI BASICS I & II”旨在帮助初学者和有一定经验的工程师掌握这款强大的工具的基础知识。 在“CVI BASICS I Course”中,学习者将深入理解LabWindows CVI的基础概念和核心功能。这部分教程...

    FFmpeg Basics.zip

    这份"FFmpeg Basics.zip"压缩包提供了一份关于FFmpeg基础知识的学习资料,主要针对那些希望深入理解音视频技术的人群。下面将详细介绍FFmpeg在音视频编解码和流媒体领域的应用。 1. **FFmpeg 基本概念** FFmpeg 是...

    RF Basics_AN5300

    RF基础,或射频基础(RF Basics)涉及到无线通信技术的基本原理和概念。射频技术是现代电子和通信不可或缺的部分,尤其在无线通信、广播、雷达和各种感应应用中广泛应用。在RF Basics_AN5300文件中,Martin D. ...

    MPLS Basics MPLS Basics

    MPLS BasicsMPLS Basics

    Unreal Engine RDG 入门教程

    Unreal Engine RDG 是一款强大的游戏引擎,涵盖了渲染依赖关系、shader 参数、渲染图形基础、屏幕 Pass 框架、代码库注册等重要知识点。本教程旨在指导读者从零开始学习 Unreal Engine RDG,帮助读者更好地理解和...

    Python Basics with Numpy

    在本课程"Python Basics with Numpy"中,我们将深入探讨Python编程的基础以及如何结合Numpy库进行高效的数据处理。Python是一种广泛使用的高级编程语言,以其易读性、灵活性和丰富的库支持而闻名,尤其在科学计算...

    Skeleton Basics-WPF_kinect骨骼基础_former9st_

    在本文中,我们将深入探讨“Skeleton Basics-WPF_kinect骨骼基础_former9st_”这一主题,这是关于使用微软Kinect设备进行骨骼追踪和可视化的基本教程。在WPF(Windows Presentation Foundation)平台上,我们可以...

    编译器设计基础Basics of Compiler Design

    传达了编译器设计的总体情况,而无需赘述。 使学生了解编译器的工作方式,并能够为简单语言制作简单(但不是简单的)编译器。

    JavaBasics-notes_JavaBasics_

    Java基础是编程世界中至关重要的一环,特别是对于那些想要深入学习和理解面向对象编程的人来说。本资料包"JavaBasics-notes_JavaBasics_"聚焦于Java语言的基础知识,包括语法、类、对象、数据类型、控制结构等核心...

    HTML Basics

    Welcome to HTML Basics. This workshop leads you through the basics of Hyper Text Markup Language (HTML). HTML is the building block for web pages. You will learn to use HTML to author an HTML page to ...

    math-basics.rar

    宾夕法尼亚大学计算机和信息科学系教授 Jean Gallier 的开源书籍《 Algebra, Topology, Differential Calculus, and Optimization Theory For Computer Science and Engineering 》用一本书的容量解决了所有问题。...

Global site tag (gtag.js) - Google Analytics