`
qipei
  • 浏览: 10115 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类

庖丁解牛(paoding) 如何定制自己的字典 (摘自官方配置文件)

阅读更多
本人用(Solr + paoding)


庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。

在linux下,我们可以考虑将词典安装在一个专门存储数据的分区下某目录,以笔者为例,笔者将/data作为系统的一个独立分区,笔者便是将词典保存在/data/paoding/dic下。

在windows下,我们可以考虑将词典安装在非系统盘的另外分区下的某个目录,以笔者为例,笔者可能将词典保存在E:/data/paoding/dic下。

使用者安装辞典后,应该设置系统环境变量PAODING_DIC_HOME指向词典安装目录。

在linux下,通过修改/etc/profile,在文件末尾加上以下2行,然后保存该文件并退出即可。

PAODING_DIC_HOME=/data/paoding/dic

export PAODING_DIC_HOME

在windows下,通过“我的电脑”属性之“高级”选项卡,然后在进入“环境变量”编辑区,新建环境变量,设置“变量名”为PAODING_DIC_HOME;“变量值”为E:/data/paoding/dic

第3步,把paoding-analysis.jar拷贝到应用运行时的类路径(classpath)下。使用集成开发环境(IDE)开发应用的使用者,需要把paoding-analysis.jar拷贝到工程中,然后使用IDE向导引入该Jar包,以便开发应用时IDE能够认识它。

 
在dic目录下 加一个xxx.dic文件,或在别的文件中添加词语就可以了
文件里面随便你写什么,每行一个词

但是注意:
   1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
   2.字典必须是UTF-8编码
   3.不要用记事本打开(我是用Editplus把字典保存成UTF8的)
分享到:
评论
8 楼 zyslovely 2010-04-28  
lz能给个例程么?
zyslovely@163.com
7 楼 qipei 2009-07-27  
yang7229693 写道
楼主您好,我是直接下载google上的beta版,培植了环境变量就可以运行了,我向dic文件夹下添加了新的dic文件,删除了.compiled文件夹,然后点击analyzer.bat跟build.bat,dic文件夹下都没有生成.compiled文件夹,而且庖丁也无法正常工作了,卧式一个新手,希望楼主能够解答,谢谢了



我的情况是:在启动容器之后会自动生成.compiled
6 楼 yang7229693 2009-07-26  
楼主您好,我是直接下载google上的beta版,培植了环境变量就可以运行了,我向dic文件夹下添加了新的dic文件,删除了.compiled文件夹,然后点击analyzer.bat跟build.bat,dic文件夹下都没有生成.compiled文件夹,而且庖丁也无法正常工作了,卧式一个新手,希望楼主能够解答,谢谢了
5 楼 qipei 2009-06-02  
配置文件是这样的:(
wwwmmmbird 写道

qipei 写道
内容不是我写的 我之前在配置的时候遇到这些问题上面大部分内容是官方配置文件里的 呵呵。 我今天查了一些资料,增加字典启动容器之后,会在classes目录中自动生成一个目录,叫“.compiled",里买你有一个目录,叫“most-words-mode",里面7个文件,而且网上很多资料都说要删除这个文件夹,才能建立索引。 但是问题来了,删除了之后,在启动容器,还会在生成,无语了~


就是每次启动容器的时候还会生成,但是没有关系,只要是在你修改了字典之后生成的就 行了
4 楼 qipei 2009-06-02  
文件夹才
wwwmmmbird 写道

每次词典修改后,要删掉dic下面的“.compiled ”文件夹才管用

你说的对, 我之前就是没有删除所以每次对字典修改后,都没有起作用
3 楼 wwwmmmbird 2009-06-01  
补充说明一下,如果你的字典是UTF-8编码,请不要用记事本打开,否则的话,第一行的词会无效


因为记事本会在文件头写下一个bom标记位,不知道你的问题跟这个有没有关系。

2 楼 wwwmmmbird 2009-06-01  
每次词典修改后,要删掉dic下面的“.compiled ”文件夹才管用
1 楼 wycrabbit 2009-05-11  
能不能给发一个demo,谢谢!!我的邮箱wycheng2829@126.com

相关推荐

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...

    庖丁解牛 中文分词工具

    "庖丁解牛"中文分词工具是由一名热爱开源的开发者精心打造的,其目的是为了优化和简化中文文本的处理流程,它支持版本号为2.0.4-alpha2,专为满足中文信息处理需求而设计。这款分词工具的核心技术将中文文本中的连续...

    庖丁解牛工具

    开发者可以通过这些文件深入了解分词器的工作原理,进行定制化开发,或者在自己的项目中集成"庖丁解牛",以提升文本处理能力。 庖丁解牛工具的主要功能包括: 1. **中文分词**:使用高效的分词算法,能够准确地将...

    庖丁解牛jarbao

    庖丁解牛的特点在于其灵活性和可定制性。用户可以根据实际需求配置字典的路径,字典是分词器进行分词决策的主要依据,包含了大量的词汇和短语。自定义词典功能使得用户能够加入特定领域或项目的专有名词,提高分词的...

    Lucene 庖丁解牛分词法2.4版本jar包

    在Lucene中,"庖丁解牛分词法"通过集成第三方分词库实现,如"paoding-analysis-2.0.4-alpha2",这是一个专门为Lucene定制的中文分词组件。这个版本的分词器具有以下特点: 1. **高效性能**:优化了算法,使其在处理...

    庖丁解牛,一种中文分词器

    "庖丁解牛"是一款专为处理中文文本的分词工具,它的设计目的是为了帮助开发者更高效、准确地对中文文本进行分词处理。在自然语言处理(NLP)领域,分词是基础且关键的一环,它将连续的文本序列切分成具有独立意义的...

    lucene3庖丁解牛中文分词器

    1. **引入库**:首先,我们需要将`paoding_lucene3_0530.jar`文件添加到项目的类路径中,这个库包含了庖丁解牛分词器的实现。 2. **配置字典**:利用`dic`目录下的字典文件,可以定制化分词器的词典,以适应特定...

    庖丁解牛 源码 for Lucene 2.4

    《庖丁解牛 源码 for Lucene 2.4》是一份针对开源全文搜索引擎Lucene 2.4版本的深度解析资料。这个压缩包包含的文件名为"paoding-for-lucene-2.4",很可能是针对中文处理的Paoding Lucene库的源代码分析或扩展。...

    lucene3.0 整合庖丁解牛实例

    实例是一个java实例,可直接导入到MyEclipse中...其中是lucene3.0整合了庖丁解牛分词法,添加了高亮显示。因为lucene3.0无法整合paoding-analysis.jar 所以我已经把paoding-analysis中的源码整合进来了避免无法整合问题

    庖丁解牛分词 java包

    4. `paoding-analysis.jar`: 这是核心的Java类库文件,包含了庖丁解牛分词的实现代码,开发者可以通过导入这个JAR包来调用其分词功能。 5. `dic`: 这个目录可能包含了分词词典,词典是分词器的基础,包含了大量的...

    庖丁解牛jar包

    一直找不到适合lucene-35以上的庖丁解牛jar包,搞了半天总于生成好了jar包,在lucene-35中运行没问题

    庖丁解牛(文件分割)

    庖丁解牛 分割文件~~~

    庖丁解牛分词器jar包

    Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...

    庖丁解牛算法代码解读_y.docx

    《庖丁解牛算法代码解读》 算法是计算机科学中的核心组成部分,对于高效地处理大量数据和解决复杂问题起着至关重要的作用。本文将深入解析一种名为“庖丁解牛”的分词算法,该算法在自然语言处理领域有着广泛的应用...

    庖丁解牛3.0搜索引擎技术

    庖丁解牛,搜索引擎分词技术,用于开发网站站内搜索所需分词技术工具包。

    适用于lucene..5的庖丁解牛分词器

    可以适用于lucene3.5的庖丁解牛分词器jar包

    庖丁解牛分词时需要的高亮显示jar包

    庖丁解牛分词时需要的高亮显示jar包,高亮显示需要的jar包

    Paoding中文分词

    标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...

    paoding-analysis3.0

    庖丁解牛中文分词器,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。适用于lucene-core-3.3.0.jar,包内已经包含lucene-core-3.3.0.jar,已测试,包好用!

Global site tag (gtag.js) - Google Analytics