庖丁解牛(paoding) 如何定制自己的字典 (摘自官方配置文件)

fuanyu

浏览: 511151 次
性别:
来自: 广州

最近访客更多访客>>

u012321412

scotttom020

bxmingche

JevonZhang8

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

庖丁中文分词需要一套词典，这些词典需要统一存储在某个目录下，这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录，它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。

在linux下，我们可以考虑将词典安装在一个专门存储数据的分区下某目录，以笔者为例，笔者将/data作为系统的一个独立分区，笔者便是将词典保存在/data/paoding/dic下。

在windows下，我们可以考虑将词典安装在非系统盘的另外分区下的某个目录，以笔者为例，笔者可能将词典保存在E:/data/paoding/dic下。

使用者安装辞典后，应该设置系统环境变量PAODING_DIC_HOME指向词典安装目录。

在linux下，通过修改/etc/profile，在文件末尾加上以下2行，然后保存该文件并退出即可。

PAODING_DIC_HOME=/data/paoding/dic

export PAODING_DIC_HOME

在windows下，通过“我的电脑”属性之“高级”选项卡，然后在进入“环境变量”编辑区，新建环境变量，设置“变量名”为PAODING_DIC_HOME；“变量值”为E:/data/paoding/dic

第3步，把paoding-analysis.jar拷贝到应用运行时的类路径(classpath)下。使用集成开发环境(IDE)开发应用的使用者，需要把paoding-analysis.jar拷贝到工程中，然后使用IDE向导引入该Jar包，以便开发应用时IDE能够认识它。

在dic目录下加一个xxx.dic文件,或在别的文件中添加词语就可以了
文件里面随便你写什么，每行一个词

但是注意：
   1.每次词典修改后，要删掉dic下面的“.compiled ”文件夹，重起solr所在服务器
   2.字典必须是UTF-8编码
   3.不要用记事本打开(我是用Editplus把字典保存成UTF8的)