`
jiezhu2007
  • 浏览: 245519 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
Cfa1f850-3fc3-3a36-9cd8-c3415c9610c6
hadoop技术学习
浏览量:144194
Group-logo
大数据产业分析
浏览量:2981
社区版块
存档分类
最新评论
阅读更多


搜索简史

2016-11-12 朱洁 大数据和云计算技术

现在的同学很难想象没有搜索引擎的日子,国内的百度,国外的Google,Bing基本成为互联网的唯一入口,上网的第一件事是搜索一下。

 

回想整个互联网,关于信息获取,可以分为这么几个阶段:

 

1)门户网站

 

20世纪末的时候大家还玩的是门户网站。全世界出名的网站就那么几个,国外Yahoo,国内Sina/搜狐/网易。大家上个网需要记住这些网站的域名,然后输入。当时网站和内容都特别少,其实也就只能看看简单的新闻。

 

2)分类导航

 

随着网站的越来越多,记住域名这种事情难度太高。所以要yahoo 是世界上第一家提供分类导航的网站。分类导航能产生也是顺其自然的事情,电话薄/地址导航类的书籍,几十年过去了,现在仍能在美国还有提供。

 

就是这么一种简单的方式,让Yahoo占领了整个互联网世界,同时Yahoo的华人老板杨致远也让华人津津乐道谈论了好多年。

 

由网吧管理员李兴平99年创建的hao123也只作了一个类似的一个分类导航简单的事情,最后04年作价上亿卖给百度。所以说信息获取,信息导航的价值和空间要多大有多大。

 

3)搜索引擎

 

Yahoo随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录,但是总算是萌芽。

 

真正的搜索引擎诞生也同时诞生了一家至今仍能是霸主的公司Google。说到Google一开始更多的是创始人Larry page的博士生作业。让Google成名的是,Larry研究的算法page rank。

 

为什么这个算法特别重要? 用户搜索的目的就是想获得答案和获取最佳信息。而互联网上各种信息良莠不齐,谁排在前,谁排在后面就显得很重要了,直接影响用户的搜索感受。那能不能像Yahoo一样通过人工录入呢,答案是否定的,在互联网信息爆炸的今天通过人工的方式基本不可能。所以Google想了一个巧妙的方法,根据网页之间相互超链接的来计算相关性。具体的方法是:

 

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

 

方法说的玄乎,简单来理解就是被链接的次数越多,越重要就会排在前面。这样用户使用Google搜索出来的相关性会大大增强,准确率大大提高。

 

现在国内的百度,国外的Google,Bing基本都是这套技术。

 

搜索引擎的出现也让搜索成为一门技术。相关的研究方兴未艾!下面简单的说一说搜索技术当前发展和趋势。

 

1)page rank 到 learning to rank 

 

从page rank通过链接来判断,还是不能完全解决问题,所以大家又尝试用机器学习训练的方式来解决搜索的排名,对语义的理解,learning  to rank一直是搜索技术研究等热点。

 

2)通用搜索到垂直搜索

 

Google/百度做的都是通用搜索,更多的是解决文本信息的问题,通用的算法很难解决所有的问题。比如音乐,视频不能简单通过链接来分析,还有正版,盗版等一系列问题,所以产生了很多垂直搜索等技术。

 

3)从信息到知识

 

搜索核心是获取信息,大家在研究等同时发现,信息里面隐藏了大量的知识,如果搜索的时候能直接返回知识,从而相当于给搜索的人直接返回更想要的答案。知识要用到的关键技术就是知识图谱。

 

4)大搜索

 

大搜索的概念可以到百度文科里面下载《大搜索技术白皮书》看看。

http://wenku.baidu.com/view/4f42bded58fafab069dc02da.html?from=search

这个是防洪墙之父方滨兴院士15年主持的一个技术项目提出的一个概念:“面向泛在网络空间的智慧搜索”。这个看起来玄乎,简单说一下关键两点:

1)搜索范围变大,除了互联网之外,未来的物联网也能搜索。

2)搜索更智能,不是简单的关键字匹配,是包含意图理解,知识综合,最后返回的结果也不全是简单的链接,而是用户最终要的答案,比如,搜索机票,最后返回的结果是帮用户把全部行程安排好。

方教授搞防火墙,搞得名声不太好,但是大搜索的概念还是挺准确的。

 

总代来说,搜索还是门复杂的技术,未来研究等空间很大。我辈一起努力吧!

 



个人新作《大数据架构详解:从数据获取到深度学习》一书,已由电子工业出版社出版,京东,淘宝,当当,亚马逊全网开售,有兴趣的同学直接上京东,淘宝,当当,亚马逊 搜索书名详细了解:

为什么写《大数据架构详解》这本书

《大数据架构详解》答疑(一)

 

 

 

 

 
 

微信扫一扫
关注该公众号

分享到:
评论

相关推荐

    计算机简史

    万维网的发明、搜索引擎的出现以及电子商务的崛起,使计算机成为了全球信息交换的核心。同时,移动计算和智能手机的普及,让计算机无处不在。 进入21世纪,云计算、大数据、人工智能和物联网等新技术成为主流。量子...

    Hadoop发展简史.pdf

    Hadoop 发展简史可以追溯到 2002 年,当时 Doug Cutting 和 Mike Cafarella 开始开发 Nutch 项目,目的是创建一个开源的网络搜索引擎。Hadoop 的名称来自 Doug Cutting 的儿子命名的毛绒象玩具。Hadoop 起源于 ...

    走进搜索引擎.pdf

    第二节搜索引擎的发展简史 搜索引擎的发展历史 第三节搜索引擎大事快览 第四节国内著名搜索引擎 百度 中搜 天网 搜狗 参考文献 第二章搜索引擎概貌 第一节搜索引擎的主要需求 查得快 查得全 查得准 查得稳 第二节...

    通用搜索引擎高效信息检索

    2.2 搜索引擎的发展简史 自1990年代初期,搜索引擎经历了从最早的手工编目到现在的自动化爬取、索引和排名的演变。从Archie、Gopher到Google,搜索引擎不断进步,以满足用户对速度和精度的需求。 2.3 搜索引擎分类 ...

    中国互联网进化简史.docx

    "中国互联网进化简史" 中国互联网的发展可以分为三个阶段:互联网 1.0 时代、互联网 2.0 时代和互联网 3.0 时代。每个阶段都有其鲜明的特点和代表人物。 互联网 1.0 时代(1995-2000 年):蛮荒之境 在这个阶段,...

    走进搜索引擎(上) 梁斌 编著 上中下

     第二节搜索引擎的发展简史  搜索引擎的发展历史  第三节搜索引擎大事快览  第四节国内著名搜索引擎  百度(www.baidu.com)  中搜(www.zhongsou.com)  天网(e.pku.edu.cn)  搜狗(www.sogou.com...

    SUN发展简史和命令的用法pdf

    ### SUN发展简史和命令的用法 #### SUN发展简史 ##### 硬件体系 自1981年成立以来,SUN Microsystems一直是计算机硬件和软件开发领域的领军企业之一。其硬件体系主要包括工作站和服务器产品线,这些产品广泛应用于...

    搜索引擎学习笔记1

    **1.2 搜索引擎发展简史** 搜索引擎的发展历程丰富多彩,包括Excite、Yahoo、Webcrawler、Lycos、InfoSeek、AltaVista、HotBot、Northern Light、Overture、Google、Fast(AllTheWeb)、Teoma、WiseNut、Gigablast、...

    学习内容 1 计算机的特性与组成 2 计算机的发展简史和计算机的应.pptx

    本文主要介绍了计算机的基本知识,涵盖了计算机的特性与组成、发展简史、应用领域,以及与Windows XP操作系统相关的操作和应用。首先,我们来详细探讨这些知识点。 1. 计算机的特性与组成: - **计算机的主要特征*...

    学习内容1计算机的特性与组成2计算机的发展简史和计算机的应.pptx

    【计算机的发展简史】 计算机的发展始于20世纪40年代,冯·诺依曼提出了存储程序的概念,奠定了现代计算机的基础。从那时起,计算机经历了从大型机到微型计算机的巨大转变,性能大幅提升,结构也变得更加复杂和精巧...

    知乎简史2:6000万+用户社区如何产品迭代.pdf

    【知乎简史2:6000万+用户社区如何产品迭代】 知乎作为一个拥有超过6000万用户的社区,其产品迭代历程展现了如何构建并维护一个知识型社区的策略。社区与社交工具有本质区别,腾讯的Q Q和微信虽然在社交领域表现...

    信息检索教学课件:第三讲 网络信息检索工具与技巧.ppt

    信息检索教学课件:第三讲 网络信息检索工具与技巧 ...本资源摘要信息对信息检索教学课件的第三讲进行了详细的介绍,涵盖了搜索引擎的基本知识、分类、工作流程、发展简史、特征、缺点和使用注意事项等方面的内容。

    机器学习概念及发展简史.pptx

    数据挖掘、计算机视觉、生物特征识别、搜索引擎优化、医学诊断等领域都广泛运用了机器学习。 以AlphaGo为例,它是谷歌DeepMind开发的围棋人工智能程序,结合了监督学习和强化学习的方法。AlphaGo通过学习大量的围棋...

    CNN基本网络结构发展简史超全总结.docx

    此外,NAS(神经架构搜索)技术也被用于自动设计网络结构,如MobileNet-v3,通过资源受限的搜索找到高效模型。 总的来说,CNN的发展历程是一个不断追求更高性能、更低计算成本和更少参数的过程,各种结构创新如残差...

    写给设计师的网页设计简史(网页设计培训).docx编程资料

    ### 网页设计简史中的关键知识点 #### 黎明前的黑暗(1989) - **互联网的起源**:互联网起源于1989年,最初只能通过黑色显示屏展示单色像素,Web设计几乎完全依赖于字符和空格的排列组合。 - **图形界面的发展**...

    数据简史:从手动接线板到大数据.pdf

    磁盘存储器的发明是数据存储的一个重大突破,它实现了直接访问数据的能力,无需按照顺序搜索整个文件。这催生了数据库管理系统(DBMS)的诞生,DBMS负责数据的存储、访问、更新和删除,极大地简化了程序员的工作。...

    ldap简介

    LDAP不仅是一个数据存储系统,它还定义了一套标准的协议和操作,如搜索、添加、删除和修改条目。通过这些操作,LDAP目录服务能够动态地响应查询请求,同时保持数据的一致性和安全性。由于不依赖SQL,而是使用自己的...

    大数据发展历史.pdf

    5、⼤数据从哪来 、⼤数据从哪来 1、搜索引擎服务 百度数据量1000PB,每天响应138个国家数⼗亿次请求,每⽇新增10TB 2、电⼦商务 3、社交⽹络 QQ:8.5亿⽤户,⽤4400台服务器存储⽤户产⽣的信息,压缩后的数据100PB...

Global site tag (gtag.js) - Google Analytics