`

庖丁解牛paoding-analysis分词器 环境配置和使用

阅读更多
首先从http://code.google.com/p/paoding
下载paoding-analysis-2.0.4-beta.zip,然后解压到一个目录下
辞典路径配置:
paoding 比较麻烦的是要设置字典的环境变量,一般做法是新建环境变量
PAODING_DIC_HOME
再加入字典路径(如 F:\paoding-analysis\dic)
这种方法在项目移位后还得配置字典环境,麻烦
可以直接把paoding源文件夹下的paoding-dic-home.properties拷贝的你自己的项目src文件夹下,然后将paoding-dic-home.properties文件中的
#paoding.dic.home=dic修改成
paoding.dic.home=F:/paoding-analysis/dic即可
当然你可以自己建一个名为paoding-dic-home.properties的文件
在里面加入一条语句paoding.dic.home=F:/paoding-analysis/dic(字典路径,自己换)
别忘记拷贝lib文件夹下的jar文件到项目中,
commons-logging.jar一定不能少

自己添加辞典:


在辞典目录下,有很多目录,比如local/division等,可以改动并添加自己的词;

自己可以添加文件夹和文件,文件命名为xxx.dic;xxx.dic里可以添加自己应用的辞典;

辞典不起作用?

Paoding会预编译辞典,生成.compiled文件夹;

自己添加的辞典,如果想立即生效,需要删除此文件夹;[其实这还不是本质,但先说到这里;可以去看源码]



另外注意:
   1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
   2.字典必须是UTF-8编码
   3.win7下不要用记事本打开,因为默认的编码不是utf-8

   4.自己添加的字典中的词语不要太长(我忘记多少长度了),否则会报错:ArrayOutOfBounds

       paoding 报错 Array Out Of Bounds
分享到:
评论

相关推荐

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不...先下载2.0.4的版本(h t t p : / /code.google.com/p/paoding/),配置好环境后,引用paoding analysis 3.0.1 jar 代替paoding analysis 2.0.4 jar 即可,其他配置如词典等都不变。

    paoding-analysis3.0

    庖丁解牛中文分词器,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。适用于lucene-core-3.3.0.jar,包内已经包含lucene-core-3.3.0.jar,已测试,包好用!

    paoding-analysis.jar

    庖丁解牛分词器,支持中文和空格路径

    庖丁解牛,一种中文分词器

    "庖丁解牛"是一款专为处理中文文本的分词工具,它的设计目的是为了帮助开发者更高效、准确地对中文文本进行分词处理。在自然语言处理(NLP)领域,分词是基础且关键的一环,它将连续的文本序列切分成具有独立意义的...

    Lucene 庖丁解牛分词法2.4版本jar包

    在Lucene中,"庖丁解牛分词法"通过集成第三方分词库实现,如"paoding-analysis-2.0.4-alpha2",这是一个专门为Lucene定制的中文分词组件。这个版本的分词器具有以下特点: 1. **高效性能**:优化了算法,使其在处理...

    庖丁解牛分词 java包

    4. `paoding-analysis.jar`: 这是核心的Java类库文件,包含了庖丁解牛分词的实现代码,开发者可以通过导入这个JAR包来调用其分词功能。 5. `dic`: 这个目录可能包含了分词词典,词典是分词器的基础,包含了大量的...

    庖丁解牛jarbao

    "庖丁解牛jarbao"是一个专为中文分词设计的工具,它的核心是"庖丁解牛中文分词器"。在Java开发环境中,它通常以jar包的形式提供,如"paoding-analysis - 3.1.jar",这表明它是基于Java语言实现的,并且是版本3.1的...

    适用于lucene..5的庖丁解牛分词器

    可以适用于lucene3.5的庖丁解牛分词器jar包

    lucene中文分词器(paoding解牛)

    Paoding这个名字来源于中国古代的一种宰牛技术,寓意其对中文文本的“解构”能力,如同庖丁解牛般精细入微。 Paoding的核心特点包括: 1. **智能词典**:Paoding使用了一种动态加载的词典机制,能够根据上下文信息...

    Paoding中文分词

    标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...

    庖丁分词jar包

    庖丁分词的设计理念是借鉴了古代厨师“庖丁解牛”的故事,寓意其在处理中文文本时能够像庖丁一样游刃有余,精准地进行分词。 在压缩包文件名称“paoding-analysis-2.0.0”中,“paoding”是庖丁分词的英文名称,...

    庖丁解牛分词时需要的高亮显示jar包

    庖丁解牛分词时需要的高亮显示jar包,高亮显示需要的jar包

    庖丁分词归类

    "庖丁分词"这个名字来源于古代典故“庖丁解牛”,寓意在处理复杂问题时,如庖丁解牛般游刃有余,体现了这个工具包在中文分词上的高效和精准。 "paoding-analysis-2.0.4-beta"是庖丁分词的一个特定版本,其中"2.0.4...

    最新庖丁分词源代码(for lucene3.0)

    庖丁分词是Java实现的高性能中文分词库,其名称来源于《庄子·养生主》中的“庖丁解牛”故事,寓意在处理复杂问题时,如庖丁解牛般游刃有余。它以其高效的分词速度和准确的分词结果在开源社区中受到好评。 2. **与...

Global site tag (gtag.js) - Google Analytics