乔建秀,国内早期从事搜索引擎技术的专家,拥有十年的搜索经验。作为搜索首席架构师,2000年-2007年在中搜在线工作。2007年以高端技术专家身份加入腾讯公司。自加入公司以来,全面负责网页搜索的后台技术架构的研发,直到2009年9月soso网页搜索成功上线。目前任命网页搜索平台和公共平台的总监,负责搜索引擎新架构和公共平台的研发工作。
搜索技术的应用越来越广,掌握搜索技术或者针对搜索技术有了解的人也越来越多。最近接触了不少搜索人才,从对搜索的了解程度来讲,大体分为几种不同的阶段。
第一个阶段是使用开源的单机搜索系统(最常见的是lucene),在其之上加入broker和Cache,在其之上在构造应用。这个阶段一般对lucene的工作原理以及基本的搜索原理会略有了解,甚至还是有不少看过lucene的源码的。这也是大多数人接触搜索引擎的最方便和最常见的方式。但是这种系统一般只适用于较少量数据(千万级),其并发性能一般也只能达到百万级。好处是开发周期短,这一类的人才在市场上也容易找到,再加上一些好的idea,简单的数据挖掘方法(分类、聚类、协同过滤、用户行为分析等)就可以很快做出原型系统,满足一些小公司的前期创业阶段的技术要求。
第二个阶段是自行开发的垂直领域内的搜索,这个阶段一般数据量会达到上亿或者几亿,如果用开源系统,其性价比已经不能满足要求,需要的服务器会超出承受能力,所以就会进行自己开发搜索系统,这种系统大都是针对内存的系统。这个阶段的人才会对搜索引擎的原理有较深的理解,可以自行开发简单的搜索应用。这类人才有很多是从第一个阶段发展过来的,他们会对搜索的各个方面都有所了解,包括切词、索引的建立、更新、应用的搭建、broker系统、cache系统、简单的排序策略等等。对于大部分搜索系统来讲,这部分人才都可以完成对系统设计和开发。
前两个阶段,其数据来源一般也是定向的抓取,基于模板的内容分析抽取,对服务的稳定性要求也没有那么高,更新无法做到无缝更新。
第三个阶段是针对网页搜索(通用搜索)的人才,这个阶段的人才比较少,针对整个网页搜索都有了解的人就更少了。主要集中于百度、谷歌、搜狗等大的搜索公司。
了解通用搜索的人主要集中于大型的搜索公司,有以下几个原因:一是其它公司很难有做网页搜索的实力,也就很难有这种工作经历。没有经历过这样的挑战就很难想像出其中的难度。二是即使有做过,但是很难拿到用户的反馈,而缺乏用户反馈数据,网页搜索引擎就象缺了一条腿。三是做网页搜索的人一般比较多,包括百度、谷歌等公司,大部分人也只能从事网页搜索中较小的一个部分,针对网页搜索整体了解和思考都是比较少的。
这个阶段的人才会对通用搜索遇到的挑战有一定的解决能力。包括如何能够在有限的资源内做到尽快的返回用户的结果(性能指标),如何做到第一时间更新互联网的热点并且能够展示到用户面前(时新性指标),如何能够尽可能多的收录互联网的有用页面(覆盖率指标),如何能够把用户最感兴趣的结果放到最前面(相关性指标),还有很多用户可用性、以及显相关的指标。这些是评价通用搜索的最主要的指标,每个指标都会有很大的挑战。这个阶段的人才一般最少会对其中的部分指标有自己解决的办法。
第四个阶段是对网页搜索系统的设计能力和架构能力都很强的人才,他们会针对搜索系统的除暴露给用户的表现部分有很深的理解和自己的解决方案外,还包括跨机房解决方案,基础存储运算在搜索中的应用,高可用和灵活性的相关性实验支持,高效灵活的数据挖掘平台、接口及解决方案,系统的高度可扩展性和柔性服务能力等。这类人才在市场上凤毛麟角,大家都在争取。
上述是从事搜索十余年总结的一点经验,欢迎大家一起探讨。
分享到:
相关推荐
综合搜索引擎与垂直搜索引擎作为互联网信息服务的两大主要工具,正日益成为人们检索和获取信息的重要途径。在本文中,我们将探讨两者在信息服务模式上的差异,以及它们之间的竞争与合作关系,并展望垂直搜索引擎未来...
### 最全的国外搜索引擎提交入口知识点详解 #### 一、引言 随着互联网技术的不断发展,搜索引擎成为人们获取信息的主要渠道之一。对于从事外贸业务的企业和个人来说,将网站提交到国外各大搜索引擎及网站目录,是...
搜索引擎的发展历程可以分为五个阶段:第一个阶段是传统搜索引擎的诞生和发展,第二个阶段是智能搜索引擎的出现和发展,第三个阶段是搜索引擎的深度学习和整合,第四个阶段是搜索引擎的云计算和大数据整合,第五个...
《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程...
搜索引擎是互联网上获取信息的关键工具,其基本工作原理主要包括三个主要步骤:抓取网页、处理网页和提供检索服务。搜索引擎的爬虫程序(Spider)通过网络中的超链接不断抓取网页,形成网页快照。抓取过程中,搜索...
【搜索引擎概述】 搜索引擎是互联网上用于寻找信息、网站、文件等各类资源的重要工具。它们通过爬取、索引和排名网络上的网页,帮助用户快速、有效地找到所需内容。本篇文章将详细探讨一些知名的国外搜索引擎,包括...
然而,传统搜索引擎的搜索结果往往不够准确,下载速度也慢,让人感到非常烦恼。今天,我要向大家介绍一种新的搜索方式——磁力搜索引擎。 磁力搜索引擎是一种基于P2P技术的搜索工具,它可以帮助我们快速找到各种类型...
【无极搜索引擎 v1.0_gss.zip】是一款先进的搜索引擎技术的实现,旨在提供高效、精准的网络数据检索服务。这个压缩包包含了该搜索引擎的核心组件和相关文档,为用户提供了全面了解和使用无极搜索引擎的资源。 在...
《搜索引擎营销实训》课程教学大纲旨在让学生深入了解互联网营销的基础理论,特别是搜索引擎营销(SEM)的实践操作技巧。课程结合理论与实践,旨在培养学生的实际操作能力和营销策略制定能力。 课程内容分为六个...
【搜索引擎网站ASP源码】是一种基于Active Server Pages(ASP)技术构建的网页应用程序,用于实现类似于百度这样的搜索引擎功能。在ASP技术中,开发者可以利用服务器端脚本编写动态网页,处理用户请求并返回相应的...
【标题】:“百度google综合搜索引擎源码”涉及的是搜索引擎技术的整合与开发,尤其是将百度和Google这两大主流搜索引擎的功能进行结合。搜索引擎源码通常包括爬虫、索引构建、查询处理、排序算法以及用户界面等多个...
标题中的“集合众多搜索引擎 第一搜索网站 万能超级搜索引擎V7.1”指的是一个集成多种搜索引擎功能的在线平台,可能是一个聚合型的搜索引擎工具,旨在提供一站式的搜索体验。这种工具通常会整合Google、Bing、百度等...
搜索引擎是互联网上至关重要的工具,它使得用户能够高效地找到所需的信息。本项目提供了一套用Java和JSP(JavaServer Pages)编写的搜索引擎源代码,这对于学习和理解搜索引擎的工作原理,以及Java后端开发与Web交互...
【标题】"搜猫搜索引擎源码|仿百度搜索引擎源码"揭示了这是一份与搜索引擎相关的源代码,特别提到了“搜猫”品牌,并模仿了知名的百度搜索引擎的某些功能或设计。这个源码可能是用于学习、研究或者开发自己的搜索...
【搜索引擎提交入口】是网站管理员或SEO优化人员用于将新创建或更新的网站提交到各大搜索引擎,以便于被搜索引擎快速收录和索引的关键途径。这些入口是搜索引擎为网站所有者提供的一个官方渠道,通过提交URL,可以...
java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+...
《qBittorrent搜索引擎插件深度解析》 在数字化时代,高效、便捷的资源获取工具是必不可少的。qBittorrent作为一款免费且开源的BitTorrent客户端,深受广大用户的喜爱。而今天我们要深入探讨的是qBittorrent的一个...
在当今信息化快速发展的时代,搜索引擎已成为人们获取信息的重要工具。搜索引擎的高效性、准确性和稳定性对于用户获取信息的体验至关重要。随着搜索引擎的广泛应用,对其测试方法的分析也越来越受到重视。本文将探讨...
在IT领域,爬虫搜索和搜索引擎是至关重要的技术,它们为获取、整理和提供网络上的海量信息提供了有效手段。本文将深入探讨这些概念,并通过一个简单的Java爬虫程序实例进行说明。 首先,让我们理解什么是爬虫。爬虫...
"搜索引擎源码"则表明该系统包含了实现搜索引擎功能的所有代码,包括但不限于爬虫、索引构建、查询解析和结果排序等关键模块。 【压缩包子文件的文件名称列表】中的各个文件提供了更多关于此源码的细节: 1. **...