`

搜索引擎设计实用教程(1)-以百度为例 之一:查询处理以及分词技术

阅读更多
中科院软件所 张俊林
2005年11月
    随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。
    但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节.
    查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.那么我们就来看看百度到底采用了哪些所谓的核心技术.
    我们分两个部分来讲述:查询处理/中文分词.

一.   查询处理

    用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息.那么百度在接受到用户查询后做了些什么工作呢?

1. 假设用户提交了不只一个查询串,比如”信息检索 理论 工具”.那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理简单,我们接着往下看.

2. 假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询”理论 工具 理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的”理论 工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理.那么是如何得出这个结论的呢?我们可以将”理论 工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容.OK.继续,我们提交查询”理论 工具 理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的).

3. 假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待.至于为什么,你用查询” 电影dfdfdf下载”看看结果就知道了.当然如果查询中包含数字,也是如此办理.

到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开.

接着该干什么呢?该考虑分词的问题了.

二.   中文分词

首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个字符串就切割啊?你当百度是卖锯条的么?

那么什么样的字符串才满足被切割的条件呢?简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉.

怎么证明呢?我们向百度提交”电影下载”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成<电影,下载>两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快.我们来看看三个字符的情况,提交查询”当然择”,看起来这个查询不伦不类,那是因为我希望看到这个字符串被切分为<当然,择>,返回结果365篇相关页面,翻到最后一页,发现标红的关键字都是”当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询”当然 择”看看,返回结果1,090,000篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的.但是我倾向于判断百度对于少于3个字符的串没有切分,奥卡姆不是说了么”如无必要,勿增实体”,干吗做无用功呢.那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照N-GRAM索引,至于索引的具体问题,以后在详细论述.

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解.这里就不展开说了.但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等.

那么百度用的是什么方法?我的判断是用双向最大匹配算法.至于怎么推理得出的,让我们一步步来看.当然,这里首先有个假设,百度不会采取比较复杂的算法,因为考虑到速度问题.

我们提交一个查询”***北京华烟云”,又一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,那么输出应该是:”***/北京/华/烟云”,如果是反向最大匹配算法的话,那么输出应该是:”毛/泽/东北/京华烟云”,我们看看百度的分词结果:”***/北/京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”***”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,可以看作是反向最大匹配的分词结果.这样基本说得通.为了证明这一点,我们提交查询”发***北”,我们期望两种分词结果,一个是正向最大匹配<发毛,泽,东北>,一个是上述假设的结果<发,***,北>,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等).而且是专用词典先切分,然后将剩余的片断交由普通词典来切分.

   继续测验,提交查询”古巴比伦理”,如果是正向最大匹配,那么结果应该是<古巴比伦,理>,如果是反向最大匹配,那么结果应该是<古巴,比,伦理>,事实上百度的分词结果是<古巴比伦,理>,从这个例子看,好像用了正向最大匹配算法;此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询”北京华烟云”,正向最大匹配期望的结果是<北京,华,烟云>,而反向最大匹配期望的结果是<北,京华烟云>,事实上百度输出的是后者,这说明可能采用的反向最大匹配;从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;但是如果两者不一致,正向匹配一种结果,反向匹配一种结果,此时该如何是好呢?从上面两个例子看,在这种情况下,百度采取最短路径方法,也就是切分的片断越少越好,比如<古巴,比,伦理>和<古巴比伦,理>相比选择后者,<北京,华,烟云>和<北,京华烟云>相比选择后者.还有类似的一些例子,这样基本可以解释这些输出结果.

但是仍然遗留的问题是:如果正向反向分词不一致,而且最短路径也相同,那怎么办?输出正向的还是反向的结果?我们再来看一个例子.提交查询”遥远古古巴比伦”,这个查询被百度切分为<遥远,古古,巴比伦>,说明词典里面有”巴比伦”,但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果,换查询为”遥远古巴比伦”,此时被切分为”遥远/古巴比伦”,这说明词典里面有”古巴比伦”这个词汇,这说明了”遥远古古巴比伦”是正向最大匹配的结果.那为什么”遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果.

当然还可以继续追问:如果切分后单字也一样多,那怎么办?最后看一个例子,查询”王强大小:”,百度将其切分为”王/强大/小”,是正向切分的结果,如果是反向的会被切分为”王/强/大小”,这说明有歧义而且单字也相同则选择正向切分结果.

OK,看到这里可能头已经有些晕了,最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:

首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果.如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果.如果单字也相同,则选择正向分词结果..

百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典.如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题.

引用:http://www.cnblogs.com/wormday/archive/2005/11/28/286448.html
分享到:
评论

相关推荐

    最新仿百度搜索引擎,带蜘蛛

    本文将深入探讨“最新仿百度搜索引擎,带蜘蛛”这一主题,包括搜索引擎的基本原理、蜘蛛爬虫的工作方式,以及与百度搜索引擎的相似之处。 首先,搜索引擎的核心功能是为用户提供信息检索服务。它通过抓取、索引和...

    揭秘搜索引擎技术实战--Lucene%26Java精华版_....pdf

    搜索引擎技术是现代互联网应用中不可或缺的核心技术之一,它能够帮助用户快速定位到自己需要的信息。Lucene是一个非常受欢迎的开源搜索引擎库,它由Apache软件基金会支持。它提供了创建自己的全文搜索引擎的强大工具...

    java模拟搜索引擎

    在Java编程语言中,模拟一个搜索引擎是一项有趣且实用的任务,尤其对于那些想要深入理解网络爬虫、信息检索和自然语言处理的开发者来说。虽然描述中提到这个项目可能没有太高的技术含量,但仍然涵盖了一些关键知识点...

    走进搜索引擎

    《走进搜索引擎》这一主题,揭示了互联网世界中至关重要的信息检索技术。搜索引擎是现代网络的基石之一,它通过复杂的算法和高效的数据处理能力,帮助全球用户在海量信息中找到所需内容。下面,我们将深入探讨搜索...

    搜索引擎营销基础介绍营销活动策划计划解决方案实用文档.pptx

    搜索引擎通过爬虫技术抓取互联网上的网页,进行预处理如去重、分词和索引,然后当用户输入关键词时,搜索引擎会快速返回相关的结果。 【搜索引擎的运作机制】 1. **抓取**:搜索引擎通过爬虫程序遍历互联网上的链接...

    站站通之百度关键字排名查询记录系统

    【站站通之百度关键字排名查询记录系统】是一款专门针对搜索引擎优化(SEO)的专业工具,主要功能是定期监测并记录关键词在百度搜索结果中的排名情况。这个系统对于网站管理员和SEO专家来说非常重要,因为它能够帮助...

    C++实现类似百度搜索功能

    综上所述,实现“C++实现类似百度搜索功能”涉及到多个层次的技术挑战,包括文本处理、数据结构与算法的选择、索引构建、查询优化、用户界面设计以及测试策略。通过学习和掌握这些知识,不仅可以创建一个实用的搜索...

    王通SEO教程2010版

    ### 王通SEO教程2010版 #### 知识点概览 1. **减少网站重复内容的方法** 2. **十大WordPress SEO插件推荐** 3. **SEO铁律18条详解** 4. **20个博客SEO优化技巧** 5. **28个提升关键词排名的SEO技巧** 6. **48个...

    39个SEO案例

    3. **搜索引擎收录与反向链接**:仅被百度收录一页,反向链接数量为13,这表明外部链接建设较为薄弱。 4. **关键词密度**:“奇虎”9.92%、“奇虎360”4.34%、“奇虎安全卫士”9.92%、“奇虎360安全卫士”9.3%、...

    杨中科 Lucene.net版Demo

    通过这个Demo,学习者可以深入了解Lucene.NET的工作原理,掌握如何在.NET环境中搭建全文搜索引擎,以及如何自定义Analyzer以适应特定的搜索需求。这对于提升开发者在信息检索领域的技能和职业竞争力至关重要。

    3.2因特网上的信息检索教案_[归类].pdf

    搜索引擎的工作原理主要包括四个步骤:爬虫抓取网页、索引建立、查询处理和结果排序。爬虫是一种自动遍历互联网的程序,它按照特定的规则抓取网页内容,并将这些内容存储为索引。当用户输入查询时,搜索引擎会根据...

    精品报告系列-2017中国手机输入法市场系列分析—百度篇 V15.pdf

    百度输入法作为市场上的重要参与者,其优势在于结合了百度强大的搜索引擎和AI技术。它提供了海量的词库,能够智能预测和组合词汇,提高输入效率。同时,百度输入法的语音输入功能特别突出,通过云输入技术,能更准确...

    实现多种文件格式的Lucene全文搜索功能的dom实例

    在IT领域,全文搜索引擎是数据检索的重要工具,而Apache Lucene是一个开源的、高性能的全文检索库,广泛应用于各种项目中。本项目“实现多种文件格式的Lucene全文搜索功能的DOM实例”专注于利用Lucene来处理不同类型...

    ElasticSearch原版PDF

    ElasticSearch,又被称为ES,是一款分布式全文搜索和分析引擎,它被广泛用于处理大规模数据的搜索和实时分析。ElasticSearch原版PDF是一本深入讲解ES使用方法的书籍,非常适合初学者和有经验的用户学习和提高。 ...

    baidu

    1. 搜索引擎技术:百度的核心功能是搜索引擎,它采用先进的网页抓取、索引和排名算法,如PageRank和Panda算法,以提供准确且相关的搜索结果。百度搜索引擎不断学习和改进,以应对海量互联网信息的挑战。 2. 自然...

    智能提示框学习记录,附带工程源码---结合lucene全文检索

    Google和百度等搜索引擎广泛使用这一技术,让用户的查询更加高效。本项目将带你深入学习如何实现这样的功能,并结合lucene全文检索引擎来增强其搜索性能。 首先,智能提示框的核心是实现自动补全功能。这通常涉及到...

    微信公众平台应用开发:方法、技巧与案例.(机械工业.柳峰)

    刘运强,网名“柳峰”,资深微信公众平台应用开发工程师,国内微信公众平台应用开发的先驱之一,项目经验丰富。他还是一位资深的Java软件开发工程师和Android/iOS移动应用开发工程师,活跃于CocoaChina、开源中国、...

Global site tag (gtag.js) - Google Analytics