`

中文分词

阅读更多

(转)

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1
、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1
)正向最大匹配法(由左到右的方向);
2
)逆向最大匹配法(由右到左的方向);
3
)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2
、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3
、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字XY的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如这一之一有的我的许多的等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用复方分词法,所谓复方,相当于用中药中的复方概念,即用不同的药材综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
分词中的难题
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
1
、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为表面面的都是词,那么这个短语就可以分成表面 面的。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的和服的例子,其实就是因为交叉歧义引起的错误。化妆和服装可以分成化妆 服装或者化妆 和服 。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子这个门把手坏了中,把手是个词,但在句子请把手拿开中,把手就不是一个词;在句子将军任命了一名中将中,中将是个词,但在句子产量三年中将增长两倍中,中将就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:乒乓球拍卖完了,可以切分成乒乓 球拍 、也可切分成乒乓球 拍卖 ,如果没有上下文其他的句子,恐怕谁也不知道拍卖在这里算不算一个词。
2
、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子王军虎去广州了中,王军虎是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把王军虎做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子王军虎头虎脑的中,王军虎还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

编写简单的中文分词程序


几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.

一、词库

词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:

地区82
重要81
新华社80
技术80
会议80
自己79
干部78
职工78
群众77
没有77
今天76
同志76
部门75
加强75
组织75

第一列是词,第二列是权重.我写的这个分词算法目前并未利用权重.

二、设计思路

算法简要描述:

对一个字符串S,从前到后扫描,对扫描的每个字,从词库中寻找最长匹配.比如假设S="我是中华人民共和国公民",词库中有"中华人民共和国","中华","公民","人民","共和国"......等词.当扫描到"",那么从中字开始,向后分别取1,2,3,......个字("","中华","中华人","中华人民","中华人民共","中华人民共和","中华人民共和国",,"中华人民共和国公"),词库中的最长匹配字符串是"中华人民共和国",那么就此切分开,扫描器推进到"".

数据结构:

选择什么样的数据结构对性能影响很大.我采用Hashtable _rootTable记录词库.键值对为(,插入次数).对每一个词语,如果该词语有N个字,则将该词语的1,1~2,1~3,......1~N个字作为键,插入_rootTable.而同一个键如果重复插入,则后面的值递增.

三、程序

具体程序如下(程序中包含权重,插入次数等要素,目前的算法并没有利用这些.可以借此写出更有效的分词算法):

ChineseWordUnit.cs //struct--(词语,权重)

1<shapetype id="_x0000_t75" stroked="f" filled="f" path="m@4@5l@4@11@9@11@9@5xe" o:preferrelative="t" o:spt="75" coordsize="21600,21600"><stroke joinstyle="miter"></stroke><formulas><f eqn="if lineDrawn pixelLineWidth 0"></f><f eqn="sum @0 1 0"></f><f eqn="sum 0 0 @1"></f><f eqn="prod @2 1 2"></f><f eqn="prod @3 21600 pixelWidth"></f><f eqn="prod @3 21600 pixelHeight"></f><f eqn="sum @0 0 1"></f><f eqn="prod @6 1 2"></f><f eqn="prod @7 21600 pixelWidth"></f><f eqn="sum @8 21600 0"></f><f eqn="prod @7 21600 pixelHeight"></f><f eqn="sum @10 21600 0"></f></formulas><path o:connecttype="rect" gradientshapeok="t" o:extrusionok="f"></path><lock aspectratio="t" v:ext="edit"></lock></shapetype><shape id="图片_x0020_1" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/None.gif" type="#_x0000_t75" o:spid="_x0000_i1287"><imagedata o:title="None" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image001.gif"></imagedata></shape>publicstructChineseWordUnit
2<shape id="Codehighlighter1_32_542_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1286"><imagedata o:title="ExpandedBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image002.gif"></imagedata></shape><shape id="Codehighlighter1_32_542_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1285"><imagedata o:title="ContractedBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image003.gif"></imagedata></shape><shape id="图片_x0020_4" style="VISIBILITY: visible; WIDTH: 11.25pt; HEIGHT: 15pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/dot.gif" type="#_x0000_t75" o:spid="_x0000_i1284"><imagedata o:title="dot" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image004.gif"></imagedata></shape>{
3<shape id="图片_x0020_5" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1283"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>privatestring_word;
4<shape id="图片_x0020_6" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1282"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>privateint_power;
5<shape id="图片_x0020_7" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1281"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>
6<shape id="Codehighlighter1_83_134_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1280"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_83_134_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1279"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape>/**////<summary>
7<shape id="图片_x0020_10" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1278"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>///中文词语单元所对应的中文词。
8<shape id="图片_x0020_11" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1277"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>///</summary>
9<shape id="图片_x0020_12" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1276"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>publicstringWord
10<shape id="Codehighlighter1_158_197_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1275"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_158_197_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1274"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape><shape id="图片_x0020_15" style="VISIBILITY: visible; WIDTH: 11.25pt; HEIGHT: 15pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/dot.gif" type="#_x0000_t75" o:spid="_x0000_i1273"><imagedata o:title="dot" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image004.gif"></imagedata></shape>{
11<shape id="图片_x0020_16" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1272"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>get
12<shape id="Codehighlighter1_170_193_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1271"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_170_193_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1270"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape><shape id="图片_x0020_19" style="VISIBILITY: visible; WIDTH: 11.25pt; HEIGHT: 15pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/dot.gif" type="#_x0000_t75" o:spid="_x0000_i1269"><imagedata o:title="dot" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image004.gif"></imagedata></shape>{
13<shape id="图片_x0020_20" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1268"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>return_word;
14<shape id="图片_x0020_21" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1267"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>}
15<shape id="图片_x0020_22" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1266"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>}
16<shape id="图片_x0020_23" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1265"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>
17<shape id="Codehighlighter1_202_248_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1264"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_202_248_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1263"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape>/**////<summary>
18<shape id="图片_x0020_26" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1262"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>///
该中文词语的权重。
19<shape id="图片_x0020_27" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1261"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>///</summary>
20<shape id="图片_x0020_28" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1260"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>publicintPower
21<shape id="Codehighlighter1_270_310_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1259"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_270_310_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1258"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape><shape id="图片_x0020_31" style="VISIBILITY: visible; WIDTH: 11.25pt; HEIGHT: 15pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/dot.gif" type="#_x0000_t75" o:spid="_x0000_i1257"><imagedata o:title="dot" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image004.gif"></imagedata></shape>{
22<shape id="图片_x0020_32" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1256"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>get
23<shape id="Codehighlighter1_282_306_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1255"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_282_306_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1254"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape><shape id="图片_x0020_35" style="VISIBILITY: visible; WIDTH: 11.25pt; HEIGHT: 15pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/dot.gif" type="#_x0000_t75" o:spid="_x0000_i1253"><imagedata o:title="dot" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image004.gif"></imagedata></shape>{
24<shape id="图片_x0020_36" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1252"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>return_power;
25<shape id="图片_x0020_37" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1251"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>}
26<shape id="图片_x0020_38" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1250"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>}
27<shape id="图片_x0020_39" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1249"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>
28<shape id="Codehighlighter1_315_437_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1248"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_315_437_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1247"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape>/**////<summary>
29<shape id="图片_x0020_42" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1246"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>///
结构初始化。
30<shape id="图片_x0020_43" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1245"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>///</summary>
31<shape id="图片_x0020_44" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1244"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>///<paramname="word">中文词语</param>
32<shape id="图片_x0020_45" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1243"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>///<paramname="power">该词语的权重</param>
33<shape id="图片_x0020_46" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1242"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>publicChineseWordUnit(stringword,intpower)
34<shape id="Codehighlighter1_489_539_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1241"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_489_539_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1240"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape><shape id="图片_x0020_49" style="VISIBILITY: visible; WIDTH: 11.25pt; HEIGHT: 15pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/dot.gif" type="#_x0000_t75" o:spid="_x0000_i1239"><imagedata o:title="dot" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image004.gif"></imagedata></shape>{
35<shape id="图片_x0020_50" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1238"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>this._word=word;
36<shape id="图片_x0020_51" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1237"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>this._power=power;
37<shape id="图片_x0020_52" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1236"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></shape>}
38<shape id="图片_x0020_53" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1235"><imagedata o:title="ExpandedBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image009.gif"></imagedata></shape>}

ChineseWordsHashCountSet.cs //词库容器

1<shape id="Codehighlighter1_1_95_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1234"><imagedata o:title="ExpandedBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image002.gif"></imagedata></shape><shape id="Codehighlighter1_1_95_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1233"><imagedata o:title="ContractedBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image003.gif"></imagedata></shape>/**////<summary>
2<shape id="图片_x0020_56" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1232"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>///记录字符串出现在中文字典所录中文词语的前端的次数的字典类。如字符串出现在中国的前端,则在字典中记录一个次数。
3<shape id="图片_x0020_57" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1231"><imagedata o:title="ExpandedBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image009.gif"></imagedata></shape>///</summary>
4<shape id="图片_x0020_58" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/None.gif" type="#_x0000_t75" o:spid="_x0000_i1230"><imagedata o:title="None" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image001.gif"></imagedata></shape>publicclassChineseWordsHashCountSet
5<shape id="Codehighlighter1_136_1564_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1229"><imagedata o:title="ExpandedBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image002.gif"></imagedata></shape><shape id="Codehighlighter1_136_1564_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1228"><imagedata o:title="ContractedBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image003.gif"></imagedata></shape><shape id="图片_x0020_61" style="VISIBILITY: visible; WIDTH: 11.25pt; HEIGHT: 15pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/dot.gif" type="#_x0000_t75" o:spid="_x0000_i1227"><imagedata o:title="dot" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image004.gif"></imagedata></shape>{
6<shape id="Codehighlighter1_140_230_Open_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockStart.gif" type="#_x0000_t75" o:spid="_x0000_i1226"><imagedata o:title="ExpandedSubBlockStart" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image006.gif"></imagedata></shape><shape id="Codehighlighter1_140_230_Closed_Image" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ContractedSubBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1225"><imagedata o:title="ContractedSubBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image007.gif"></imagedata></shape>/**////<summary>
7<shape id="图片_x0020_64" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/InBlock.gif" type="#_x0000_t75" o:spid="_x0000_i1224"><imagedata o:title="InBlock" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image005.gif"></imagedata></shape>///
记录字符串在中文词语中出现次数的Hashtable。键为特定的字符串,值为该字符串在中文词语中出现的次数。
8<shape id="图片_x0020_65" style="VISIBILITY: visible; WIDTH: 8.25pt; HEIGHT: 12pt; mso-wrap-style: square" alt="http://www.cnblogs.com/Images/OutliningIndicators/ExpandedSubBlockEnd.gif" type="#_x0000_t75" o:spid="_x0000_i1223"><imagedata o:title="ExpandedSubBlockEnd" src="file:///C:%5CDOCUME~1%5CADMINI~1%5CLOCALS~1%5CTemp%5Cmsohtmlclip1%5C01%5Cclip_image008.gif"></imagedata></s

分享到:
评论

相关推荐

    baidu.rar_ baidu_dictionary_中文分词_中文分词 词典_分词词典

    在本篇文章中,我们将围绕“baidu.rar_baidu_dictionary_中文分词_中文分词_词典_分词词典”这一主题,深入探讨百度曾经使用的中文分词词典及其在实际应用中的价值。 首先,让我们了解中文分词词典的重要性。词典是...

    分词词库_中文分词词库最新整理(TXT格式)

    中文分词是自然语言处理中的一个基础任务,它是指将连续的汉字序列切分成具有语义意义的词汇序列的过程。与英文等其他语言相比,中文没有明显的单词界限,因此中文分词是进行后续自然语言处理任务(如文本分类、情感...

    c# 中文分词 LUCENE IKAnalyzer

    标题中的"C# 中文分词 LUCENE IKAnalyzer"是指使用C#语言实现的一个中文分词工具,它基于开源全文检索引擎Lucene,并且采用了IKAnalyzer(智能汉字分词系统)的Java版本进行移植。Lucene是一个强大的、高性能的信息...

    lucene.NET 中文分词

    中文分词是将连续的汉字序列切分成具有语义的词语的过程,是自然语言处理(NLP)中的基础步骤。在Lucene.NET中,为了支持中文分词,通常需要结合第三方分词器,如IK Analyzer、HanLP、jieba.NET等。这些分词器具备...

    百度中文分词词库

    "百度中文分词词库"是一个专门用于分词的资源,它包含了大量的词汇及其组合方式,为精确地将连续的汉字序列分割成具有语义意义的词语提供了基础。 首先,我们要理解什么是中文分词。由于中文句子没有明显的空格来...

    中文分词数据集.zip

    中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词数据集.zip”压缩包中,包含了一个专门用于训练中文分词模型的数据集。下面将详细讨论中文...

    中文分词词库整理.7z

    中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词词库整理.7z”压缩包中,包含的可能是一个精心整理的中文词汇集合,用于支持各种中文分词算法...

    中文分词词库大全词库

    ### 中文分词词库大全词库解析 #### 标题与描述概述 标题:“中文分词词库大全词库” 描述重复强调了一个词典的来源及其格式(TXT)。这表明该词库是为了中文自然语言处理(NLP)任务中的分词而准备的资源。中文...

    微软亚洲研究院中文分词语料库

    中文分词是中文文本处理的基石,因为中文没有像英文那样的空格来自然地划分单词,所以需要通过分词算法将连续的汉字序列切分成有意义的词汇单元。这一过程对于后续的文本分析、信息检索、机器翻译等任务至关重要。 ...

    简单的中文分词程序(练习)

    标签 "中文分词" 是关键点,中文分词是将连续的汉字序列切分成有意义的词语,这是处理中文文本的基础步骤,对于信息检索、情感分析、机器翻译等任务至关重要。常见的中文分词算法有基于词典的匹配方法、统计模型如隐...

    lucene6.6+拼音分词+ik中文分词包

    《深入理解Lucene 6.6:拼音与IK中文分词技术详解》 在信息检索领域,Lucene作为一款强大的全文搜索引擎库,被广泛应用。在处理中文文本时,分词是至关重要的一步,它决定了搜索的精度和效果。本文将详细讲解如何在...

    C#汉字分词程序

    在IT领域,汉字分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词汇单元,以便计算机能够理解和分析文本。本项目名为"C#汉字分词程序",它实现了两种常见的分词算法:正向最大匹配...

    matlab中文分词——最大正向匹配法.rar

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词语单元,以便计算机能够理解和分析文本。本项目以"matlab中文分词——最大正向匹配法.rar"为主题,重点讨论了如何...

    中文分词学习版

    CSW中文分词组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行...

    庖丁解牛 中文分词工具

    分词是中文文本处理的基石,因为它能将连续的汉字序列划分为具有语义意义的单元,便于后续的分析和应用。 在"庖丁解牛"中,用户可以通过运行`analyzer.bat`程序来测试和查看分词结果。这是一个便捷的交互方式,允许...

    中文分词+关键字提取.zip

    中文分词是将连续的汉字序列切分成具有语义意义的词语的过程。与英文单词间的空格作为天然分隔符不同,中文没有明确的分词标志,因此需要借助特定算法来完成。常见的分词方法有基于词典的匹配法、统计模型如隐...

    java实现中文分词simhash算法

    中文不同于英文,单词之间没有明显的分隔符,因此在处理中文文本时,我们需要先进行分词,即将连续的汉字序列切分成有意义的词汇单元。Sanford中文分词库是一种常用的分词工具,它基于统计模型,能够根据语料库学习...

    c#中文分词类库 可用来做搜索引擎分词 准确率90% 支持Lucene.net

    分词是自然语言处理中的基础步骤,它将连续的汉字序列切分成有意义的词语,这对于搜索引擎、信息检索、文本分析等多个领域至关重要。这类类库能够帮助开发者高效地实现对中文文本的预处理,提升系统的性能和准确性。...

    ik中文分词词库35万中文分词词库(含电商)

    ik中文分词词库35万中文分词词库(含电商)

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

Global site tag (gtag.js) - Google Analytics