`
saybody
  • 浏览: 928661 次
  • 性别: Icon_minigender_2
  • 来自: 西安
文章分类
社区版块
存档分类
最新评论

浅谈SEO的关键:中文分词(上)

阅读更多

在搜索引擎技术中,中文分词对于影响搜索引擎结果排序有着至关重要的作用。我们在实际的搜索引擎优化中,为了避免很多主关键词的大量竞争,也会使用到中文分词技术来做SEO优化。举个简单的例子,假如我们需要优化一个内容是“轴承”的网页,那么想要这个关键词在搜索引擎中排名更好,那就是很难的一件事了。因为“轴承”这个关键词热度太高,所以想要通过SEO手段去将其优化到搜索结果的首页是一件非常难的事。在这个时候我们经常会使用长尾关键词去优化这样的高热度关键词,也就是说,我们经常会优化一些例如“北京轴承销售商”、“北京进口轴承”等这样的关键词。而想要把这样的关键词做到搜索结果的前列,对于中文分词技术的把握和对于关键词的布局,有很大的重要性。

中文分词在中国已经是有很久的历史了,明朝末年有一位画家叫做徐渭(文长),据说因为他家过于贫困,根本没有粮食可吃,因此只好跑到亲戚朋友家“蹭饭”。一次两次亲戚朋友不觉得什么,但是时间长了,就感觉很厌恶徐渭。终于有一天,亲戚忍无可忍,不顾外面下着春雨就想把徐渭赶出去,于是在墙上写了一行字,委婉的下了逐客令:

“下雨天留客天留人不留”

徐渭看到那行字以后,心里自然明白亲戚的意思。但是到了晚上亲戚回到家一看,徐渭居然又在饭桌前等候。主人很奇怪,就问徐渭:“你看到墙上的字了吗?”徐渭笑笑:“看到了,但是没想到你这么好客,既然这样,我也不客气了,就继续住下去吧!免得你自责招待不周。”说完,指指墙上的字,主人一看,差点气晕过去,原来,徐渭在这行字上加了几个标点符号,主人无奈,只好让徐渭继续留下。徐渭是这么写的:

“下雨天,留客天。留人不?留。”

中国的文字博大精深,不同的标点符号,不同的断句就代表着不同的意思。所以,曾经有一位Google的科学家说:“如果可以做好中文搜索引擎,那么我们就不怕任何语种的搜索引擎研究了。”

那么中文分词在搜索引擎优化中到底具有怎样的意义呢?分词对SEO的影响是多方面的,最重要的就是对长尾流量的影响。例如说我们常常见到很多很想做的长尾关键词,例如广州进口轴承销售,上海进口轴承销售等等,但我们通过前文对于SEO的了解可以知道,一个页面做关键词不要超过三个,因为超过三个就会分散了每个关键词的权重,反而一个都做不好。但如果我们想超过三个又不影响呢?那么我们这时候就需要利用中文分词来对关键词进行组合了,例如<title>进口轴承销售-上海-广州<title>。这样分出来的结果可能没有广州进口轴承销售或上海进口轴承销售的关键词来的直接,但用这样分词的办法却使到很多词都获得不错的效果。多个词排名在搜索引擎结果页的首位,总是要比一个关键词排名在第一位的覆盖面要广。久而久之,因为 广州+进口轴承销售、上海+进口轴承销售这些页面让搜索引擎知道你的页面和“进口轴承销售”这个关键词相关度很高,因此进口轴承销售这个主关键词的排名也会相对提高。

当然,我们上面举得例子是还没有完全对于关键词进行完全的拆分。下面我们就对中文分词做一个粗略的讨论。

最早的中文分词办法是由北京航天航空大学的梁南元教授提出的,一种基于“查字典”的分词办法。例如这个句子:“著名导演张艺谋说国庆节晚上将安排十万人到联欢。”

“查字典” 的分词方法,我们要做的就是把整个句子读一遍,然后把字典里有的词都单独标示出来,当遇到复合词的时候(例如北京大学),就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。根据这样的办法,我们以上的文字可以切分为:

“著名 | 导演 | 张艺谋 | | 国庆节 | 晚上 | | 安排 | 十万人 | | | 联欢”

这样的分词办法虽然说可以应付很多的句子,但是由于细分的太多,在真正搜索引擎使用的过程中,到底哪一个词才是重点就无法表述,从而搜索引擎搜索出的结果也不能达到最大的相关度。于是在80年代,哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论,即为,一句话应该是分词最少的字符串,这样会更多的让搜索引擎更明白这句话到底是什么意思。但是这样的办法虽然更好,新的问题却也显现了出来。例如,我们在做“二义性”关键词组的时候,就不能说最长的分割就是最好的结果。举个例子,“吉利大学城书店”这个关键词正确的分词应该是“吉利 | 大学城 | 书店”而不是词典中的“吉利大学 | | 书店

目前,主流的分词办法有两种,一种是基于统计模型的文字处理,另外一种是基于字符串匹配的逆向最大匹配法。

基于统计模型的文字处理

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字XY的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。(上文引自SEO专家论坛)

基于统计模型的文字处理,因为技术性比较高,而且只是使用在搜索引擎分词算法的过程中,如果学会,对于SEO的帮助会更大,各位可以加入我的SEO培训班进行深入讨论。这里更多的说一下基于字符串匹配的逆向最大匹配法。

一般来说,我们在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这个办法其实很简单。我们以一个简单的例子来说明。

“瑞星一直以质量和服务开拓安全市场”。

如果这个句子我们以“查字典”的办法正向切分的话,就会切分成下面的句子。

“瑞\\一直\\质量\和服\\开拓\安全\市场”

我们可以看到,正向切分出现了一个重大的错误“和服”,而“和服”这个关键词是日本的传统服饰,和这句话的意思根本没有任何关系,如果真的这样去分词的话,那么在真正搜索引擎索引的过程中,我们搜索“和服”也会出现这样的错误结果。

因此我们开始做逆向最大匹配法。从这句话的后面往前读(从右向左)

“瑞\\一直\\质量\\服务\开拓\安全\市场”。

这个分词办法才是正确的。

对于中文分词还有很多的讨论,下一节我们接着说。

相关阅读:

轻松几步获得上万点击率1title优化

轻松几步上万点击率2关键词选取

轻松几步获得上万点击率3元标签优化

轻松几步获得上万点击率4URL优化

轻松几步获得上万点击率5关键词分布

轻松几步获得上万点击率6规范化设计

轻松几步获得上万点击率7控制搜索引擎

轻松几步获得上万点击率8内链优化

轻松几步获得上万点击9图片优化

轻松几步获得上万点击率10网页减肥

轻松几步获得上万点击率11专题策略

分享到:
评论

相关推荐

    百度seo分词技术 seo seo优化 seo分词技术

    SEO分词技术是提升中文网站搜索引擎表现的关键,它涉及到词典匹配、统计分析和深度学习等多种技术手段。理解并掌握这些技术,能够帮助网站更好地适应搜索引擎的规则,优化内容结构,提高搜索排名,从而吸引更多的...

    seo优化工具-中文分词工具

    中文分词工具是SEO优化中不可或缺的工具,它专门处理中文文本,因为中文句子由汉字组成,不像英文单词之间有明显的空格分隔。中文分词就是将连续的汉字序列切分成具有语义的词汇单位,这对于理解和分析中文内容至关...

    浅谈SEO推广技巧

    ### 浅谈SEO推广技巧 在网络营销领域,SEO(搜索引擎优化)作为一种重要的推广手段,对于提升网站的在线可见性、增加品牌曝光度以及吸引潜在客户具有不可替代的作用。本文将结合给定的内容,深入探讨SEO推广的核心...

    SEO教程:2016最新SEO新手教程

    SEO教程:2016最新SEO新手教程,讲述新手SEO该如何系统学习SEO。

    云寻觅中文分词执行程序

    中文分词是将连续的汉字序列切分成具有实际意义的词汇单元,因为中文没有像英文那样的空格或标点符号来自然地划分单词,所以需要通过特定的算法进行识别。这对于搜索引擎理解和处理中文文本至关重要,因为搜索引擎的...

    SEO搜索中文分词算法原理实战教程.doc

    综上所述,SEO中文分词算法原理是一个涉及自然语言处理、算法设计等多个领域的复杂课题。本教程所提供的内容能够帮助有志于从事SEO工作的人员,从理论到实践,全面掌握中文分词的原理和方法。通过学习和应用这些知识...

    SEO攻略:搜索引擎优化策略与实战案例详解].杨帆.扫描版.pdf

    SEO攻略:搜索引擎优化策略与实战案例详解].杨帆.扫描版.pdf

    浅谈SEO让你得到更多排名效果

    ### 浅谈SEO让你得到更多排名效果 在当今数字化时代,搜索引擎优化(SEO)已成为企业获得在线可见性和竞争力的关键策略之一。SEO不再仅仅是简单的关键词排名游戏,而是涉及到多个方面的综合考量,包括用户体验、...

    SEO关键解码 网站营销与搜索引擎优化

    高清电子书,网络营销与搜索引擎优化,一本很实用的电子书

    asp中文分词源代码

    ASP中文分词源代码是为ASP(Active Server Pages)网页设计和开发提供的关键工具,尤其在搜索引擎优化(SEO)方面有着显著的应用。分词是自然语言处理中的基础步骤,对于中文来说,由于词语之间没有明显的分隔符,...

    浅谈SEO兼职现状.docx

    本文将结合作者的亲身经历,浅谈SEO兼职市场的现状,着重分析代发外链、优化排名和产品软文代写等常见形式,并探讨如何应对兼职过程中可能遇到的骗局及维护个人信誉。 首先,代发外链作为一种相对低门槛的SEO兼职...

    基于搜索引擎的中文分词评估方法

    中文作为世界上最复杂、使用人数最多的语言之一,其分词技术的准确性直接影响到搜索结果的质量,进而影响用户的体验和搜索引擎的效能。因此,开发和优化中文分词算法成为搜索引擎技术的核心课题之一。 #### 中文...

    SEO技巧:ChatGPT Prompts优化指南.pdf

    《SEO技巧:ChatGPT Prompts优化指南》是一份针对个人自媒体运营者的实用参考资料,旨在通过利用ChatGPT Prompts工具提升文章的搜索引擎优化(SEO)效果,从而提高文章在搜索结果中的排名,吸引更多的读者关注。...

    百度内部SEO培训:百度网页搜索Query-Url质量评估标准

    百度内部SEO培训:百度网页搜索Query-Url质量评估标准

    seo中神秘的分词切词_如何获取优质长尾流量

    综上所述,百度分词技术在SEO实践中起着至关重要的作用。通过深入了解百度分词的特点及其对排名的影响,网站所有者和SEO专家可以采取更加有效的策略来优化网站内容,从而在搜索引擎中获得更好的可见性和更多的长尾...

    SEO优化:骨头外链小工具

    外链是SEO中的关键因素之一,它是指从其他网站指向您网站的链接。这些链接被视为对您网站质量的一种投票,搜索引擎会根据这些投票的数量和质量来评估您的网站权重。骨头外链工具的设计理念就是帮助用户更便捷地创建...

    切词工具,切词软件,SEO必备分词工具,分词软件

    中国最强大的分词工具,最专业的学院研制,高级分词切词工具,系统化的让您了解搜索引擎的切词分词系统,是做SEO的必备辅助工具

    浅谈SEO的多样性.docx

    例如,互联网上的“添加到百度首页”按钮就引发了新的讨论,如何合理利用这一功能以提升用户体验并促进网站优化,是SEO从业者需要不断探索的问题。此外,过去有效的技术如站群建站,如今可能因为搜索引擎的改进而...

    Python无监督抽词SEO如何快速正确分词.doc

    无监督分词技术在SEO领域的应用具有重要意义,它能够帮助我们更高效地处理大量文本数据,提取关键信息。通过上述介绍的统计模型方法,可以有效地提升分词的准确性。未来,随着自然语言处理技术的不断发展,无监督...

Global site tag (gtag.js) - Google Analytics