`
zhuzhao
  • 浏览: 11904 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
最近访客 更多访客>>
社区版块
存档分类
最新评论

搜索引擎中文分词技术

阅读更多
搜索引擎中文分词技术
由于很多朋友要求写一篇搜索引擎分词技术的文章,特别是关于百度分词的。今天就发发给大家
我10月9号在SEOWHY周四答疑群给讲解的分词技术今天给大家帖出来供大家学习一下。


分词技术 :  什么是分词, 如何分词搜索引擎会承认,这次第一位朋友提的问题,想必大家也听说过,很好奇,什么是分词技术,什么又是百度分词呢?分词大家容易理解。就是一段词用字符分开,比如标点符号,空格等。

那什么叫分词技术呢?分词技术就是SE针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。大家好好理解。那么我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。首先是到数据库里面索引相关的信息,
这就是查询处理,那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。”这种分词方法叫做反向匹配法。2.然后再看用户提供的这个词有没有重复词汇。
如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。好了,这就是SE的查询处理。

讲了查询处理后,大家对分词技术,尤其是中文分词技术有了一个基本的了解。
其实我讲的都是搜索引擎的原理。好了,我接下来讲分词的原理。我们用百度来举例
百度是如何来分词的呢?分词技术现今非常成熟了。他分为3种技术。
1.字符串匹配的分词方法
2.词义分词法。
3.统计分此法。
先说第一种。
也是常用的分词法,百度就是用此种分词。字符串匹配的分词方法,他又分为3中分词方法。
1.正向最大匹配法
什么意思呢?就是把一个词从左至右来分词。
举个例子。
“不知道你在说什么”
这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。
2.反向最大匹配法 来分上面我举的例子是如何分的呢 "不知道你在说什么"。反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
3.就是最短路径分词法。
这个什么理解呢 ,就是说 我一段话里面要求切出的词数是最少的。还是上面哪句话
“不知道你在说什么”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有3个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。好了,第一种说完了,


2.词义分词法。
这种其实就是一种机器语音判断的分词
方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。

第三种,统计的分词方法。
这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。好了,分词技术讲完了。

那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢

1.我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。
不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。这个原理就是内链原理,这里不再讲了。讲了这么多,我们举个例子。
例如:三亚酒店预定,如何来分呢?
正向最大匹配,反向最大匹配,双向最大匹配,最短链接匹配。
1.正向最大匹配
“亚,酒店预定”
2.反向最大匹配
“三亚酒店,预定”
3.双向最大匹配
“三亚,酒店,预定”
4.最短路径最大匹配。

“三亚酒店预定”好了,我们分了词为
“三亚,“酒店预定,预定,三亚酒店,三亚,酒店 ,三亚酒店预定。”
这些词每个都可以做一个主题页为目标关键词
这些分出来的词,把他们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。一旦导入链接权重上来了,竞争力就大了,因为这些页面把他内链起来。
用锚链接,指向主页的目标关键词。呵呵,这就是分词的好处。他能够提升目标关键词的排名的竞争力也同时给站点带来一定流量。分词还有一种好处。那就是提升内页的排名。好的,这个我就不详细讲了。因为我在SEOWHY已经写了一篇文章。大家可以去看一下。就是关于百度,捕获描述的文章。如果你的内页不做描述,那么百度就会给你定义一个描述或者从你的页面捕获一个描述。在捕获描述的时候,如果你的知道他会捕获哪一段,那么你说,你的排名会不会上升。你就刻意写哪一段。

分享到:
评论

相关推荐

    搜索引擎技术 中文分词搜索引擎程序

    中文分词是搜索引擎处理中文文本的基础,它将连续的汉字序列切分成具有语义的词语,对于搜索引擎理解和处理中文信息至关重要。中文分词技术需要兼顾速度和准确性,同时能及时更新词库以适应网络新词汇。 四、排序...

    c#中文分词类库 可用来做搜索引擎分词 准确率90% 支持Lucene.net

    分词是自然语言处理中的基础步骤,它将连续的汉字序列切分成有意义的词语,这对于搜索引擎、信息检索、文本分析等多个领域至关重要。这类类库能够帮助开发者高效地实现对中文文本的预处理,提升系统的性能和准确性。...

    中文分词和搜索引擎

    搜索引擎技术的发展离不开中文分词技术的进步。百度、Google、中搜等搜索引擎巨头都在不断优化自己的分词系统,以提升搜索结果的相关性和准确性。例如,Google采用了外部公司的分词技术,而百度和中搜则分别拥有自主...

    php搜索引擎之分词算法

    在IT领域,搜索引擎是至关重要的技术之一,尤其是在大数据和信息爆炸的时代。PHP作为一种常见的服务器端脚本语言,也被广泛应用于构建搜索引擎。本文将深入探讨PHP实现的搜索引擎中的一个关键环节——分词算法,特别...

    Solr5.5搜索引擎之分词原理说明.docx

    中文分词是指将中文汉字序列切分成有意义的词的过程。中文分词是自然语言处理技术中的一部分,许多西文处理方法对中文不能直接采用,因为中文必须有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是...

    php搜索引擎中文分词例子

    说明:本技术用于搜索引擎中文分词 程序使用自建词库,存储15多万(免费版10万左右)词,未压缩词库仅1.13M 程序自动过滤了诸如:█♀♂卍※ 平均每个词查找词库次数为2 使用分词类中的add_word方法可以很轻易扩展词库,...

    Solr5.5搜索引擎之分词原理说明

    综上所述,中文分词是中文自然语言处理的基础,对于搜索引擎等应用至关重要。通过理解中文分词的基本原理和技术,可以帮助开发者更好地设计和实现高效的中文信息处理系统。无论是传统的基于词典的分词方法,还是新兴...

    国内首例开源搜索引擎分词

    在信息化时代,搜索引擎作为获取信息的重要工具,其核心之一就是分词技术。分词是自然语言处理中的基础步骤,它将连续的文本流分割成具有独立意义的词语,从而为后续的检索、分析等任务提供便利。本文将深入探讨国内...

    中文分词技术 源代码 对于搜索引擎爱好者相当有用

    中文分词技术是自然语言处理领域的一个重要环节,尤其对于搜索引擎爱好者来说,掌握这项技术能够极大地提升信息检索的准确性和效率。在这个压缩包中,包含了实现中文分词功能的源代码,非常适合对这一领域感兴趣的人...

    lucene中文分词源码,做搜索引擎需要用到的好东西哦

    通过深入研究和实践,不仅可以理解分词技术的本质,还能为构建个性化的搜索引擎打下坚实基础。在探索和学习的过程中,不断积累经验,你将能更好地驾驭这一强大的工具,为信息检索带来更大的便利。

    百度搜索引擎中文分词与文本粒度.pdf

    《百度搜索引擎中文分词与文本粒度》\n\n搜索引擎的核心任务是理解用户查询的意图,为用户提供最相关、最精确的搜索结果。百度作为中国的主要搜索引擎,其技术和策略不断演进,旨在提高效率和准确性。其中,中文分词...

    fenci.rar_C++分词_中文关键字_中文搜索引擎_分词_分词 搜索

    本文将深入探讨“fenci.rar”压缩包所包含的C++分词技术,中文关键字的识别,以及如何利用这些技术来提升中文搜索引擎的性能。 一、C++分词 C++分词是指利用C++编程语言实现的中文文本分词工具。分词是将连续的...

    中文搜索引擎的分词技术百度的分词技术分析

    主要讲解了中文分词技术原理 <br>和 百度的分词技术分析

    基于搜索引擎的中文分词评估方法

    基于搜索引擎的中文分词评估方法,不仅对提高搜索引擎中文检索结果的质量具有重要意义,也为中文自然语言处理领域的研究提供了有力支持。通过科学的评估方法,可以有效地指导分词算法的优化,提升搜索引擎的整体性能...

    中文搜索引擎技术-解密分词技术.rar

    **中文搜索引擎技术——解密分词技术** 在中文搜索引擎领域,分词技术是核心环节之一,对于提升搜索结果的相关性和准确性起着至关重要的作用。本文将深入探讨分词技术的基本概念、重要性以及常见的分词策略。 **一...

    搜索引擎中的分词以及查找的编程心得

    在探讨搜索引擎中的分词技术和查找机制之前,我们首先需要理解几个基本概念:分词(Tokenization)、词干提取(Stemming)和词形还原(Lemmatization)。这些技术是构建高效、准确搜索引擎的核心。 #### 一、分词...

    毕业设计-基于Ansj中文分词技术的关键词抽取以及网络爬虫技术的简易搜索引擎(java)

    毕业设计——基于Ansj中文分词技术的关键词抽取以及网络爬虫技术的简易搜索引擎(java)

    搜索引擎-中文分词.zip

    中文分词是自然语言处理(NLP)领域中的关键技术,特别是在搜索引擎开发中起着至关重要的作用。搜索引擎的主要功能是理解用户输入的...对于想要深入理解或改进中文分词技术的人来说,这是一个很好的学习和实践资源。

Global site tag (gtag.js) - Google Analytics