论坛首页 Java企业应用论坛

发布IK Analyzer 3.0 中文分词器

浏览 66084 次
该帖已经被评为精华帖
作者 正文
   发表时间:2010-01-13  
用户输入关键字  然后在索引中去搜索,不具体根据数据库哪个字段的索引去搜索,而我建立的索引是根据数据库每个字段去建立的
我就是要做这样的搜索
0 请登录后投票
   发表时间:2010-01-13  
swprogrammer 写道
用户输入关键字  然后在索引中去搜索,不具体根据数据库哪个字段的索引去搜索,而我建立的索引是根据数据库每个字段去建立的
我就是要做这样的搜索


Lucene的搜索就是针对文档的所有有index标识的field的。但你取结果的时候,怎么取就看你的程序了。
0 请登录后投票
   发表时间:2010-01-27   最后修改:2010-01-27
来 吧,也用了这个分词
感觉效果还不错,可以自己用了自定义词库。这个比较好
0 请登录后投票
   发表时间:2010-01-27  
firesnake2008 写道
来 吧,也用了这个分词
感觉效果还不错,可以自己用了自定义词库。这个比较好

哪个“来吧”?
0 请登录后投票
   发表时间:2010-01-27  
linliangyi2007 写道
firesnake2008 写道
来 吧,也用了这个分词
感觉效果还不错,可以自己用了自定义词库。这个比较好

哪个“来吧”?

晕,不是这个意思,是中间有词屏蔽。。帖子没打印出来,呵呵

我想请教LZ,分词以后的词还是太多了,如果作为关键字送出去太多了,想再屏蔽部分词语,但没有其他库或更多文字。不能来选择权重之类的。

有很弱的想法。。。能否把这些词再去和默认的词库里的词比较啊,比如人名库,地名库。找到了有这个词那就留下,没有就扔了

这样能实现么?咋和词库的词比较呢。
0 请登录后投票
   发表时间:2010-01-28  
firesnake2008 写道
linliangyi2007 写道
firesnake2008 写道
来 吧,也用了这个分词
感觉效果还不错,可以自己用了自定义词库。这个比较好

哪个“来吧”?

晕,不是这个意思,是中间有词屏蔽。。帖子没打印出来,呵呵

我想请教LZ,分词以后的词还是太多了,如果作为关键字送出去太多了,想再屏蔽部分词语,但没有其他库或更多文字。不能来选择权重之类的。

有很弱的想法。。。能否把这些词再去和默认的词库里的词比较啊,比如人名库,地名库。找到了有这个词那就留下,没有就扔了

这样能实现么?咋和词库的词比较呢。


你的做法是可以的,在IK中有个Dictionary的字典工具类,里面有对主词典进行匹配的方法,详细可以参考IK的Java DOC文档
0 请登录后投票
   发表时间:2010-02-09   最后修改:2010-02-09
请问,IK词典的配置问题,IKAnalyzer.cfg.xml 放在哪里都无所谓是么?

里面配置 /ext_stopwords.dic

那IKAnalyzer.cfg.xml 放在src/ 

同样ext_stopwords.dic 也放到src/ 下..我试了下没有作用呢,停止词! 是否配置错误?
0 请登录后投票
   发表时间:2010-02-09  
kexzcle 写道
请问,IK词典的配置问题,IKAnalyzer.cfg.xml 放在哪里都无所谓是么?

里面配置 /ext_stopwords.dic

那IKAnalyzer.cfg.xml 放在src/ 

同样ext_stopwords.dic 也放到src/ 下..我试了下没有作用呢,停止词! 是否配置错误?


IKAnalyzer.cfg.xml可以放在src下,ext_stopwords.dic则是根据你在cfg中的配置位置来放置,请参考使用文档,里面都有详细的描述了。
0 请登录后投票
   发表时间:2010-02-26  
linliangyi2007 写道
kexzcle 写道
请问,IK词典的配置问题,IKAnalyzer.cfg.xml 放在哪里都无所谓是么?

里面配置 /ext_stopwords.dic

那IKAnalyzer.cfg.xml 放在src/ 

同样ext_stopwords.dic 也放到src/ 下..我试了下没有作用呢,停止词! 是否配置错误?


IKAnalyzer.cfg.xml可以放在src下,ext_stopwords.dic则是根据你在cfg中的配置位置来放置,请参考使用文档,里面都有详细的描述了。

我也有这个问题,文档看过了,而且在加载的时候控制台可以看到已经加载了IKAnalyzer.cfg.xml,IKAnalyzer.cfg.xml和ext_stopwords.dic是在同一文件夹中。但是搜索的时候还是没有过滤到ext_stopwords.dic出现过的字。
补充一下:我使用的是SSH。
0 请登录后投票
   发表时间:2010-02-26  
MultiArrow 写道
linliangyi2007 写道
kexzcle 写道
请问,IK词典的配置问题,IKAnalyzer.cfg.xml 放在哪里都无所谓是么?

里面配置 /ext_stopwords.dic

那IKAnalyzer.cfg.xml 放在src/ 

同样ext_stopwords.dic 也放到src/ 下..我试了下没有作用呢,停止词! 是否配置错误?


IKAnalyzer.cfg.xml可以放在src下,ext_stopwords.dic则是根据你在cfg中的配置位置来放置,请参考使用文档,里面都有详细的描述了。

我也有这个问题,文档看过了,而且在加载的时候控制台可以看到已经加载了IKAnalyzer.cfg.xml,IKAnalyzer.cfg.xml和ext_stopwords.dic是在同一文件夹中。但是搜索的时候还是没有过滤到ext_stopwords.dic出现过的字。
补充一下:我使用的是SSH。


1。确认你的词典文件的位置确实正确,经常发生扩展词典文件没有被MyEclipse发布到AppServer的运行目录下的情况。
2.确认词典文件的编码是无BOM的UTF-8方式的。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics