搜索简史
现在的同学很难想象没有搜索引擎的日子,国内的百度,国外的Google,Bing基本成为互联网的唯一入口,上网的第一件事是搜索一下。
回想整个互联网,关于信息获取,可以分为这么几个阶段:
1)门户网站
20世纪末的时候大家还玩的是门户网站。全世界出名的网站就那么几个,国外Yahoo,国内Sina/搜狐/网易。大家上个网需要记住这些网站的域名,然后输入。当时网站和内容都特别少,其实也就只能看看简单的新闻。
2)分类导航
随着网站的越来越多,记住域名这种事情难度太高。所以要yahoo 是世界上第一家提供分类导航的网站。分类导航能产生也是顺其自然的事情,电话薄/地址导航类的书籍,几十年过去了,现在仍能在美国还有提供。
就是这么一种简单的方式,让Yahoo占领了整个互联网世界,同时Yahoo的华人老板杨致远也让华人津津乐道谈论了好多年。
由网吧管理员李兴平99年创建的hao123也只作了一个类似的一个分类导航简单的事情,最后04年作价上亿卖给百度。所以说信息获取,信息导航的价值和空间要多大有多大。
3)搜索引擎
Yahoo随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录,但是总算是萌芽。
真正的搜索引擎诞生也同时诞生了一家至今仍能是霸主的公司Google。说到Google一开始更多的是创始人Larry page的博士生作业。让Google成名的是,Larry研究的算法page rank。
为什么这个算法特别重要? 用户搜索的目的就是想获得答案和获取最佳信息。而互联网上各种信息良莠不齐,谁排在前,谁排在后面就显得很重要了,直接影响用户的搜索感受。那能不能像Yahoo一样通过人工录入呢,答案是否定的,在互联网信息爆炸的今天通过人工的方式基本不可能。所以Google想了一个巧妙的方法,根据网页之间相互超链接的来计算相关性。具体的方法是:
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
方法说的玄乎,简单来理解就是被链接的次数越多,越重要就会排在前面。这样用户使用Google搜索出来的相关性会大大增强,准确率大大提高。
现在国内的百度,国外的Google,Bing基本都是这套技术。
搜索引擎的出现也让搜索成为一门技术。相关的研究方兴未艾!下面简单的说一说搜索技术当前发展和趋势。
1)page rank 到 learning to rank
从page rank通过链接来判断,还是不能完全解决问题,所以大家又尝试用机器学习训练的方式来解决搜索的排名,对语义的理解,learning to rank一直是搜索技术研究等热点。
2)通用搜索到垂直搜索
Google/百度做的都是通用搜索,更多的是解决文本信息的问题,通用的算法很难解决所有的问题。比如音乐,视频不能简单通过链接来分析,还有正版,盗版等一系列问题,所以产生了很多垂直搜索等技术。
3)从信息到知识
搜索核心是获取信息,大家在研究等同时发现,信息里面隐藏了大量的知识,如果搜索的时候能直接返回知识,从而相当于给搜索的人直接返回更想要的答案。知识要用到的关键技术就是知识图谱。
4)大搜索
大搜索的概念可以到百度文科里面下载《大搜索技术白皮书》看看。
http://wenku.baidu.com/view/4f42bded58fafab069dc02da.html?from=search
这个是防洪墙之父方滨兴院士15年主持的一个技术项目提出的一个概念:“面向泛在网络空间的智慧搜索”。这个看起来玄乎,简单说一下关键两点:
1)搜索范围变大,除了互联网之外,未来的物联网也能搜索。
2)搜索更智能,不是简单的关键字匹配,是包含意图理解,知识综合,最后返回的结果也不全是简单的链接,而是用户最终要的答案,比如,搜索机票,最后返回的结果是帮用户把全部行程安排好。
方教授搞防火墙,搞得名声不太好,但是大搜索的概念还是挺准确的。
总代来说,搜索还是门复杂的技术,未来研究等空间很大。我辈一起努力吧!
个人新作《大数据架构详解:从数据获取到深度学习》一书,已由电子工业出版社出版,京东,淘宝,当当,亚马逊全网开售,有兴趣的同学直接上京东,淘宝,当当,亚马逊 搜索书名,详细了解:
微信扫一扫
关注该公众号
相关推荐
资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。
wrf转mp4播放器1.1.1
内容概要:本文档详细介绍了如何在Simulink中设计一个满足特定规格的音频带ADC(模数转换器)。首先选择了三阶单环多位量化Σ-Δ调制器作为设计方案,因为这种结构能在音频带宽内提供高噪声整形效果,并且多位量化可以降低量化噪声。接着,文档展示了具体的Simulink建模步骤,包括创建模型、添加各个组件如积分器、量化器、DAC反馈以及连接它们。此外,还进行了参数设计与计算,特别是过采样率和信噪比的估算,并引入了动态元件匹配技术来减少DAC的非线性误差。性能验证部分则通过理想和非理想的仿真实验评估了系统的稳定性和各项指标,最终证明所设计的ADC能够达到预期的技术标准。 适用人群:电子工程专业学生、从事数据转换器研究或开发的技术人员。 使用场景及目标:适用于希望深入了解Σ-Δ调制器的工作原理及其在音频带ADC应用中的具体实现方法的人群。目标是掌握如何利用MATLAB/Simulink工具进行复杂电路的设计与仿真。 其他说明:文中提供了详细的Matlab代码片段用于指导读者完成整个设计流程,同时附带了一些辅助函数帮助分析仿真结果。
国网台区终端最新规范
《基于YOLOv8的智慧农业水肥一体化控制系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计
GSDML-V2.33-LEUZE-AMS3048i-20170622.xml
微信小程序项目课程设计,包含LW+ppt
微信小程序项目课程设计,包含LW+ppt
终端运行进度条脚本
幼儿园预防肺结核教育培训课件资料
python,python相关资源
《基于YOLOv8的智慧校园电动车充电桩状态监测系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计
deepseek 临床之理性软肋.pdf
SM2258XT量产工具(包含16种程序),固态硬盘量产工具使用
RecyclerView.zip
水务大脑让水务运营更智能(23页)
资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。
大众捷达轿车前轮制动器设计
《基于YOLOv8的智能工厂压缩空气泄漏检测系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计
3米-翻抛机