`

<转>庖丁解牛分词之自定义词库[自定义词典]

 
阅读更多

原链接: http://hi.baidu.com/stone_kings/item/fff2efd6db55df2b38f6f766 

 

发现很久很久没更新了,尤其是这个模块,也就好久没进步了!学习如逆水行舟,不进则退!趁着还没到白首之际,应该多学习。
首先,还是先贴出来参考来源,毕竟非原创。
1)、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
2)、http://qipei.javaeye.com/blog/365207
现在继续:
1
、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2
、然后解压缩,找到dic文件夹,复制到你想存放的文件夹下
         <!--[if gte vml 1]><v:shapetype id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"> <v:stroke joinstyle="miter" /> <v:formulas> <v:f eqn="if lineDrawn pixelLineWidth 0" /> <v:f eqn="sum @0 1 0" /> <v:f eqn="sum 0 0 @1" /> <v:f eqn="prod @2 1 2" /> <v:f eqn="prod @3 21600 pixelWidth" /> <v:f eqn="prod @3 21600 pixelHeight" /> <v:f eqn="sum @0 0 1" /> <v:f eqn="prod @6 1 2" /> <v:f eqn="prod @7 21600 pixelWidth" /> <v:f eqn="sum @8 21600 0" /> <v:f eqn="prod @7 21600 pixelHeight" /> <v:f eqn="sum @10 21600 0" /> </v:formulas> <v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect" /> <o:lock v:ext="edit" aspectratio="t" /> </v:shapetype><v:shape id="图片_x0020_2" o:spid="_x0000_i1037" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/fbf41423c208de7c9922ed1b.jpg" style='width:399pt;height:178.5pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image001.png" o:title="fbf41423c208de7c9922ed1b" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/fbf41423c208de7c9922ed1b.jpg<!--[endif]--><!--[if gte vml 1]><v:shape id="图片_x0020_3" o:spid="_x0000_i1036" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/b5564f95a57a4d267bf480e5.jpg" style='width:568.5pt;height:421.5pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image003.png" o:title="b5564f95a57a4d267bf480e5" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/b5564f95a57a4d267bf480e5.jpg<!--[endif]-->


3
、配置环境变量,如果不配置,运行会报错,报错的中文信息也是需要进行配置环境变量

<!--[if gte vml 1]><v:shape id="图片_x0020_4" o:spid="_x0000_i1035" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/e1d7bb50d86e89721038c2a0.jpg" style='width:315.75pt;height:371.25pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image005.png" o:title="e1d7bb50d86e89721038c2a0" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/e1d7bb50d86e89721038c2a0.jpg<!--[endif]-->
4
、删除.compiled文件
<!--[if gte vml 1]><v:shape id="图片_x0020_5" o:spid="_x0000_i1034" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/4c5a624e6044dae4d1c86abe.jpg" style='width:97.5pt;height:59.25pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image007.png" o:title="4c5a624e6044dae4d1c86abe" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/4c5a624e6044dae4d1c86abe.jpg<!--[endif]-->5
、新建一个文本文件,后缀名问.dic,采用utf-8保存到dic的文件目录中,这里保存在了E:\paodingTest\dic\locale
       <!--[if gte vml 1]><v:shape id="图片_x0020_6" o:spid="_x0000_i1033" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/7bbc5afaee6569b959ee90bc.jpg" style='width:568.5pt;height:471pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image009.png" o:title="7bbc5afaee6569b959ee90bc" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/7bbc5afaee6569b959ee90bc.jpg<!--[endif]-->
6
、下面我们写个分词测试程序
<!--[if gte vml 1]><v:shape id="图片_x0020_7" o:spid="_x0000_i1032" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/8c7c43df1e87c53d6327988f.jpg" style='width:568.5pt;height:311.25pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image011.jpg" o:title="8c7c43df1e87c53d6327988f" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/8c7c43df1e87c53d6327988f.jpg<!--[endif]-->7
、自定义词库的情况下分词结果,首先看到的是词库的编译信息
<!--[if gte vml 1]><v:shape id="图片_x0020_8" o:spid="_x0000_i1031" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/0a089ebf54f7cf2419d81f91.jpg" style='width:568.5pt;height:195pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image013.png" o:title="0a089ebf54f7cf2419d81f91" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/0a089ebf54f7cf2419d81f91.jpg<!--[endif]-->
8
、带自定义词库的分词结果
<!--[if gte vml 1]><v:shape id="图片_x0020_9" o:spid="_x0000_i1030" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/0bf25ef431d584c17609d793.jpg" style='width:354pt;height:577.5pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image015.png" o:title="0bf25ef431d584c17609d793" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/0bf25ef431d584c17609d793.jpg<!--[endif]-->
















































9
、删除自定义词库和.compiled文件,重新分词
<!--[if gte vml 1]><v:shape id="图片_x0020_10" o:spid="_x0000_i1029" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/6b01aa191c987954dbb4bd64.jpg" href="http://hiphotos.baidu.com/xwx520/pic/item/7f5f19fb7a6de44a034f569b.jpg" target="_blank" style='width:295.5pt;height:494.25pt;visibility:visible; mso-wrap-style:square' o:button="t"> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image017.png" o:title="6b01aa191c987954dbb4bd64" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/6b01aa191c987954dbb4bd64.jpg<!--[endif]-->
10
、放在一起比较,效果还是有的
<!--[if gte vml 1]><v:shape id="图片_x0020_11" o:spid="_x0000_i1028" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/72bcd813dabe2dfef6039e7d.jpg" style='width:569.25pt;height:504.75pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image019.png" o:title="72bcd813dabe2dfef6039e7d" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/72bcd813dabe2dfef6039e7d.jpg<!--[endif]-->















































11
、假设我们在分词的时候,需要把运、动分开,默认情况下是不分开的
<!--[if gte vml 1]><v:shape id="图片_x0020_12" o:spid="_x0000_i1027" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/fe4fc7ca9669e8a8c8176844.jpg" style='width:511.5pt;height:428.25pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image021.png" o:title="fe4fc7ca9669e8a8c8176844" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/fe4fc7ca9669e8a8c8176844.jpg<!--[endif]-->
12
、在词库中增加两个词运和动
<!--[if gte vml 1]><v:shape id="图片_x0020_13" o:spid="_x0000_i1026" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/d105e1196167f86b42a9ad47.jpg" style='width:568.5pt;height:453.75pt;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image023.png" o:title="d105e1196167f86b42a9ad47" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/d105e1196167f86b42a9ad47.jpg<!--[endif]-->

13
、当然,如果想把这个分词器用得更好,还需要深入去了解和思考该分词方法,比如,我是运动员,虽然我们在自定义词库中填加了词运动员,但是依旧没有切分成运动员,反而出现了不相关的动员这个词语。而需要同时将运动切分为运动,那也是需要好好思考用法,当然这也和中国汉语的特殊性有关,例如:乒乓球拍卖完了,在没有上下文的情况下本身就存在歧义。
<!--[if gte vml 1]><v:shape id="图片_x0020_14" o:spid="_x0000_i1025" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/2349d418ada8959a4bedbc36.jpg" style='width:559.5pt;height:7in;visibility:visible;mso-wrap-style:square'> <v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image025.png" o:title="2349d418ada8959a4bedbc36" /> </v:shape><![endif]--><!--[if !vml]-->http://hiphotos.baidu.com/xwx520/pic/item/2349d418ada8959a4bedbc36.jpg<!--[endif]-->

<!--[if !supportLineBreakNewLine]-->
<!--[endif]-->

分享到:
评论

相关推荐

    庖丁解牛分词之自定义词库、庖丁解牛配置

    在提供的文件列表中,“庖丁解牛分词之自定义词库[自定义词典].htm”很可能是介绍如何创建和使用自定义词库的教程文档。通过阅读这个文件,开发者可以学习如何创建自己的词典文件,以及如何在庖丁解牛分词工具中进行...

    庖丁解牛 中文分词工具

    "庖丁解牛"中文分词工具是由一名热爱开源的开发者精心打造的,其目的是为了优化和简化中文文本的处理流程,它支持版本号为2.0.4-alpha2,专为满足中文信息处理需求而设计。这款分词工具的核心技术将中文文本中的连续...

    庖丁解牛分词源码

    8. **扩展性与灵活性**:庖丁解牛分词器的设计可能考虑到易扩展和灵活性,允许用户自定义词典、添加新的分词规则,甚至插入自定义的分词算法,以适应各种应用场景。 通过研究"庖丁解牛分词器"的源码,开发者不仅...

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...

    庖丁解牛分词 java包

    "庖丁解牛分词" 是一款针对中文文本处理的分词工具,主要适用于Java环境。这个工具包的名称形象地借用中国古代故事“庖丁解牛”,寓意对文本的精细处理,如同庖丁对牛肉的熟练分解。在Java开发中,分词是自然语言...

    lucene中文分词(庖丁解牛)庖丁分词

    《Lucene中文分词——庖丁解牛》 在自然语言处理领域,中文分词是基础且关键的一环。在Java开发中,Apache Lucene是一个强大的全文搜索引擎库,但默认并不支持中文,这就需要借助第三方分词工具。本文将深入探讨...

    庖丁解牛,一种中文分词器

    "庖丁解牛"是一款专为处理中文文本的分词工具,它的设计目的是为了帮助开发者更高效、准确地对中文文本进行分词处理。在自然语言处理(NLP)领域,分词是基础且关键的一环,它将连续的文本序列切分成具有独立意义的...

    lucene 中文分词 庖丁解牛

    《Lucene中文分词:庖丁解牛》 在信息技术高速发展的今天,全文搜索引擎已经成为网站内容检索不可或缺的一部分。其中,Apache Lucene作为一个开源的全文检索库,被广泛应用于各种项目中,尤其对于处理中文文本,...

    lucene3庖丁解牛中文分词器

    《深入剖析:Lucene3与庖丁解牛中文分词器》 在信息技术飞速发展的今天,全文检索和搜索引擎已经成为日常开发中不可或缺的部分。Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文...

    sorlr + tomcat+ 庖丁解牛中文分词 配置文档

    标题 "sorlr + tomcat+ 庖丁解牛中文分词 配置文档" 提到的是一个关于在Apache Solr中集成Tomcat服务器,并利用庖丁解牛中文分词工具进行中文处理的配置教程。这个配置过程对于搭建支持中文搜索的Solr环境至关重要。...

    庖丁解牛分词器jar包

    Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...

    STL原码剖析<庖丁解牛>

    总的来说,《STL原码剖析&lt;庖丁解牛&gt;》是一本深度揭秘STL的权威之作,无论是初学者还是经验丰富的开发者,都能从中获益匪浅。通过阅读这本书,读者不仅能掌握STL的基本使用,还能深入理解其背后的思维方式和编程艺术...

    庖丁解牛jarbao

    "庖丁解牛jarbao"是一个专为中文分词设计的工具,它的核心是"庖丁解牛中文分词器"。在Java开发环境中,它通常以jar包的形式提供,如"paoding-analysis - 3.1.jar",这表明它是基于Java语言实现的,并且是版本3.1的...

    中文分词 庖丁解牛 2_0_0版本发布 - 企业应用

    庖丁解牛2_0_0版本可能提供了更加灵活的接口和配置选项,使得开发者可以根据企业的具体需求进行定制,比如添加自定义词典,调整分词策略等。这样的灵活性可以更好地适应不同行业的专业术语和特殊用法。 另外,考虑...

    庖丁解牛工具

    "庖丁解牛工具"是一款基于Java开发的文本分析工具,尤其在中文分词领域有着广泛的应用。这个工具的名字来源于中国古代寓言故事“庖丁解牛”,寓意对文本的精细处理和深入理解,就像庖丁对牛肉的熟练切割一样。在IT...

    适用于lucene..5的庖丁解牛分词器

    可以适用于lucene3.5的庖丁解牛分词器jar包

    庖丁解牛分词时需要的高亮显示jar包

    庖丁解牛分词时需要的高亮显示jar包,高亮显示需要的jar包

    Lucene 庖丁解牛分词法2.4版本jar包

    然而,由于中文的复杂性,简单的英文分词策略无法满足需求,于是有了针对中文的分词方法——"庖丁解牛分词法"。该方法是专门为了解决Lucene在处理中文文本时的分词难题而设计的。在本文中,我们将深入探讨这一分词法...

    Linux驱动开发庖丁解牛系类

    "Linux驱动开发庖丁解牛系列"很可能是一个深入解析Linux驱动程序开发的教程或者一系列文档,旨在帮助开发者逐步理解并掌握这一复杂而重要的技术领域。 Linux驱动开发主要包括以下几个关键知识点: 1. **内核结构...

Global site tag (gtag.js) - Google Analytics