庖丁解牛paoding-analysis分词器环境配置和使用

zengzhaoshuai

浏览: 308060 次
性别:
来自: 郴州

最近访客更多访客>>

xindunm

一溜烟儿的跑

dongguangming88

antlove

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

应用服务器 Solr Google F#

首先从http://code.google.com/p/paoding
下载paoding-analysis-2.0.4-beta.zip，然后解压到一个目录下
辞典路径配置：
paoding 比较麻烦的是要设置字典的环境变量，一般做法是新建环境变量
PAODING_DIC_HOME
再加入字典路径（如 F:\paoding-analysis\dic）
这种方法在项目移位后还得配置字典环境，麻烦
可以直接把paoding源文件夹下的paoding-dic-home.properties拷贝的你自己的项目src文件夹下，然后将paoding-dic-home.properties文件中的
#paoding.dic.home=dic修改成
paoding.dic.home=F:/paoding-analysis/dic即可
当然你可以自己建一个名为paoding-dic-home.properties的文件
在里面加入一条语句paoding.dic.home=F:/paoding-analysis/dic（字典路径，自己换）
别忘记拷贝lib文件夹下的jar文件到项目中，
commons-logging.jar一定不能少

自己添加辞典：

在辞典目录下，有很多目录，比如local/division等，可以改动并添加自己的词；

自己可以添加文件夹和文件，文件命名为xxx.dic；xxx.dic里可以添加自己应用的辞典；

辞典不起作用?

Paoding会预编译辞典，生成.compiled文件夹；

自己添加的辞典，如果想立即生效，需要删除此文件夹；［其实这还不是本质，但先说到这里；可以去看源码］

另外注意：
   1.每次词典修改后，要删掉dic下面的“.compiled ”文件夹，重起solr所在服务器
   2.字典必须是UTF-8编码
   3.win7下不要用记事本打开，因为默认的编码不是utf-8

   4.自己添加的字典中的词语不要太长(我忘记多少长度了)，否则会报错：ArrayOutOfBounds

       paoding 报错 Array Out Of Bounds