`
jiezhu2007
  • 浏览: 247785 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
Cfa1f850-3fc3-3a36-9cd8-c3415c9610c6
hadoop技术学习
浏览量:145505
Group-logo
大数据产业分析
浏览量:3004
社区版块
存档分类
最新评论
阅读更多


搜索简史

2016-11-12 朱洁 大数据和云计算技术

现在的同学很难想象没有搜索引擎的日子,国内的百度,国外的Google,Bing基本成为互联网的唯一入口,上网的第一件事是搜索一下。

 

回想整个互联网,关于信息获取,可以分为这么几个阶段:

 

1)门户网站

 

20世纪末的时候大家还玩的是门户网站。全世界出名的网站就那么几个,国外Yahoo,国内Sina/搜狐/网易。大家上个网需要记住这些网站的域名,然后输入。当时网站和内容都特别少,其实也就只能看看简单的新闻。

 

2)分类导航

 

随着网站的越来越多,记住域名这种事情难度太高。所以要yahoo 是世界上第一家提供分类导航的网站。分类导航能产生也是顺其自然的事情,电话薄/地址导航类的书籍,几十年过去了,现在仍能在美国还有提供。

 

就是这么一种简单的方式,让Yahoo占领了整个互联网世界,同时Yahoo的华人老板杨致远也让华人津津乐道谈论了好多年。

 

由网吧管理员李兴平99年创建的hao123也只作了一个类似的一个分类导航简单的事情,最后04年作价上亿卖给百度。所以说信息获取,信息导航的价值和空间要多大有多大。

 

3)搜索引擎

 

Yahoo随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录,但是总算是萌芽。

 

真正的搜索引擎诞生也同时诞生了一家至今仍能是霸主的公司Google。说到Google一开始更多的是创始人Larry page的博士生作业。让Google成名的是,Larry研究的算法page rank。

 

为什么这个算法特别重要? 用户搜索的目的就是想获得答案和获取最佳信息。而互联网上各种信息良莠不齐,谁排在前,谁排在后面就显得很重要了,直接影响用户的搜索感受。那能不能像Yahoo一样通过人工录入呢,答案是否定的,在互联网信息爆炸的今天通过人工的方式基本不可能。所以Google想了一个巧妙的方法,根据网页之间相互超链接的来计算相关性。具体的方法是:

 

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

 

方法说的玄乎,简单来理解就是被链接的次数越多,越重要就会排在前面。这样用户使用Google搜索出来的相关性会大大增强,准确率大大提高。

 

现在国内的百度,国外的Google,Bing基本都是这套技术。

 

搜索引擎的出现也让搜索成为一门技术。相关的研究方兴未艾!下面简单的说一说搜索技术当前发展和趋势。

 

1)page rank 到 learning to rank 

 

从page rank通过链接来判断,还是不能完全解决问题,所以大家又尝试用机器学习训练的方式来解决搜索的排名,对语义的理解,learning  to rank一直是搜索技术研究等热点。

 

2)通用搜索到垂直搜索

 

Google/百度做的都是通用搜索,更多的是解决文本信息的问题,通用的算法很难解决所有的问题。比如音乐,视频不能简单通过链接来分析,还有正版,盗版等一系列问题,所以产生了很多垂直搜索等技术。

 

3)从信息到知识

 

搜索核心是获取信息,大家在研究等同时发现,信息里面隐藏了大量的知识,如果搜索的时候能直接返回知识,从而相当于给搜索的人直接返回更想要的答案。知识要用到的关键技术就是知识图谱。

 

4)大搜索

 

大搜索的概念可以到百度文科里面下载《大搜索技术白皮书》看看。

http://wenku.baidu.com/view/4f42bded58fafab069dc02da.html?from=search

这个是防洪墙之父方滨兴院士15年主持的一个技术项目提出的一个概念:“面向泛在网络空间的智慧搜索”。这个看起来玄乎,简单说一下关键两点:

1)搜索范围变大,除了互联网之外,未来的物联网也能搜索。

2)搜索更智能,不是简单的关键字匹配,是包含意图理解,知识综合,最后返回的结果也不全是简单的链接,而是用户最终要的答案,比如,搜索机票,最后返回的结果是帮用户把全部行程安排好。

方教授搞防火墙,搞得名声不太好,但是大搜索的概念还是挺准确的。

 

总代来说,搜索还是门复杂的技术,未来研究等空间很大。我辈一起努力吧!

 



个人新作《大数据架构详解:从数据获取到深度学习》一书,已由电子工业出版社出版,京东,淘宝,当当,亚马逊全网开售,有兴趣的同学直接上京东,淘宝,当当,亚马逊 搜索书名详细了解:

为什么写《大数据架构详解》这本书

《大数据架构详解》答疑(一)

 

 

 

 

 
 

微信扫一扫
关注该公众号

分享到:
评论

相关推荐

    计算机简史

    万维网的发明、搜索引擎的出现以及电子商务的崛起,使计算机成为了全球信息交换的核心。同时,移动计算和智能手机的普及,让计算机无处不在。 进入21世纪,云计算、大数据、人工智能和物联网等新技术成为主流。量子...

    Hadoop发展简史.pdf

    Hadoop 发展简史可以追溯到 2002 年,当时 Doug Cutting 和 Mike Cafarella 开始开发 Nutch 项目,目的是创建一个开源的网络搜索引擎。Hadoop 的名称来自 Doug Cutting 的儿子命名的毛绒象玩具。Hadoop 起源于 ...

    走进搜索引擎.pdf

    第二节搜索引擎的发展简史 搜索引擎的发展历史 第三节搜索引擎大事快览 第四节国内著名搜索引擎 百度 中搜 天网 搜狗 参考文献 第二章搜索引擎概貌 第一节搜索引擎的主要需求 查得快 查得全 查得准 查得稳 第二节...

    (源码)基于微信小程序平台的发明简史小程序.zip

    # 基于微信小程序平台的发明简史小程序 ## 项目简介 本项目是一个基于微信小程序的创意项目,名为“发明简史小程序”。该小程序通过探索和展示人类...3. 搜索词条用户可以搜索特定的发明或技术,快速找到相关的内容。

    通用搜索引擎高效信息检索

    2.2 搜索引擎的发展简史 自1990年代初期,搜索引擎经历了从最早的手工编目到现在的自动化爬取、索引和排名的演变。从Archie、Gopher到Google,搜索引擎不断进步,以满足用户对速度和精度的需求。 2.3 搜索引擎分类 ...

    中国互联网进化简史.docx

    "中国互联网进化简史" 中国互联网的发展可以分为三个阶段:互联网 1.0 时代、互联网 2.0 时代和互联网 3.0 时代。每个阶段都有其鲜明的特点和代表人物。 互联网 1.0 时代(1995-2000 年):蛮荒之境 在这个阶段,...

    Web中文搜索引擎研究。pdf

    搜索引擎的发展简史可以追溯到1990年,由蒙特利尔的大学生Alan Emtage发明的Archie,它是搜索引擎的始祖。Archie使用脚本程序自动搜索网上的文件,并对相关信息进行索引,提供给用户查询。随后,一些开发机器人程序...

    走进搜索引擎(上) 梁斌 编著 上中下

     第二节搜索引擎的发展简史  搜索引擎的发展历史  第三节搜索引擎大事快览  第四节国内著名搜索引擎  百度(www.baidu.com)  中搜(www.zhongsou.com)  天网(e.pku.edu.cn)  搜狗(www.sogou.com...

    SUN发展简史和命令的用法pdf

    ### SUN发展简史和命令的用法 #### SUN发展简史 ##### 硬件体系 自1981年成立以来,SUN Microsystems一直是计算机硬件和软件开发领域的领军企业之一。其硬件体系主要包括工作站和服务器产品线,这些产品广泛应用于...

    搜索引擎学习笔记1

    **1.2 搜索引擎发展简史** 搜索引擎的发展历程丰富多彩,包括Excite、Yahoo、Webcrawler、Lycos、InfoSeek、AltaVista、HotBot、Northern Light、Overture、Google、Fast(AllTheWeb)、Teoma、WiseNut、Gigablast、...

    学习内容 1 计算机的特性与组成 2 计算机的发展简史和计算机的应.pptx

    本文主要介绍了计算机的基本知识,涵盖了计算机的特性与组成、发展简史、应用领域,以及与Windows XP操作系统相关的操作和应用。首先,我们来详细探讨这些知识点。 1. 计算机的特性与组成: - **计算机的主要特征*...

    学习内容1计算机的特性与组成2计算机的发展简史和计算机的应.pptx

    【计算机的发展简史】 计算机的发展始于20世纪40年代,冯·诺依曼提出了存储程序的概念,奠定了现代计算机的基础。从那时起,计算机经历了从大型机到微型计算机的巨大转变,性能大幅提升,结构也变得更加复杂和精巧...

    知乎简史2:6000万+用户社区如何产品迭代.pdf

    【知乎简史2:6000万+用户社区如何产品迭代】 知乎作为一个拥有超过6000万用户的社区,其产品迭代历程展现了如何构建并维护一个知识型社区的策略。社区与社交工具有本质区别,腾讯的Q Q和微信虽然在社交领域表现...

    信息检索教学课件:第三讲 网络信息检索工具与技巧.ppt

    信息检索教学课件:第三讲 网络信息检索工具与技巧 ...本资源摘要信息对信息检索教学课件的第三讲进行了详细的介绍,涵盖了搜索引擎的基本知识、分类、工作流程、发展简史、特征、缺点和使用注意事项等方面的内容。

    机器学习概念及发展简史.pptx

    数据挖掘、计算机视觉、生物特征识别、搜索引擎优化、医学诊断等领域都广泛运用了机器学习。 以AlphaGo为例,它是谷歌DeepMind开发的围棋人工智能程序,结合了监督学习和强化学习的方法。AlphaGo通过学习大量的围棋...

    CNN基本网络结构发展简史超全总结.docx

    此外,NAS(神经架构搜索)技术也被用于自动设计网络结构,如MobileNet-v3,通过资源受限的搜索找到高效模型。 总的来说,CNN的发展历程是一个不断追求更高性能、更低计算成本和更少参数的过程,各种结构创新如残差...

    写给设计师的网页设计简史(网页设计培训).docx编程资料

    ### 网页设计简史中的关键知识点 #### 黎明前的黑暗(1989) - **互联网的起源**:互联网起源于1989年,最初只能通过黑色显示屏展示单色像素,Web设计几乎完全依赖于字符和空格的排列组合。 - **图形界面的发展**...

    数据简史:从手动接线板到大数据.pdf

    磁盘存储器的发明是数据存储的一个重大突破,它实现了直接访问数据的能力,无需按照顺序搜索整个文件。这催生了数据库管理系统(DBMS)的诞生,DBMS负责数据的存储、访问、更新和删除,极大地简化了程序员的工作。...

    ldap简介

    LDAP不仅是一个数据存储系统,它还定义了一套标准的协议和操作,如搜索、添加、删除和修改条目。通过这些操作,LDAP目录服务能够动态地响应查询请求,同时保持数据的一致性和安全性。由于不依赖SQL,而是使用自己的...

Global site tag (gtag.js) - Google Analytics