发布IKAnnlyzer3.2.0稳定版 for Lucene3.0

linliangyi2007

浏览: 1013035 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

Solr lucene Apache 搜索引擎 Tomcat

最新3.2.5版本已经推出，http://linliangyi2007.iteye.com/blog/758451

前言
由于Lucene3.0 API的全面升级，且不再与Lucene2.X兼容， IK Analyzer为此推出了3.2.0版本。该版本仅支持Lucene2.9 / 3.0和solr1.4的接口实现。
PS:使用Solr1.3和lucene2.9之前版本的用户请下载IK Analyzer3.1.6GA使用，谢谢！

IK Analyzer 3.2.0版本修订

1.支持Lucene3.0 Analyzer实现
2.移除solr1.3接口，修改solr1.4接口
3.默认开放停止词功能，发布IK自带的ext_stopword.dic停止词典
4.优化了IKQueryParser的性能

IK分词器对Lucene及solr的版本支持明细表

下载地址

IKAnalyzer3.2.0稳定版发布包

IKAnalyzer3.2.0稳定版使用手册

分享到：

发帖纪念，为了铭记1937年的今天12月13日 | 在Tomcat下以JNDI方式发布JbossCache

2009-12-07 09:27
浏览 9580
评论(74)
论坛回复 / 浏览 (74 / 28158)
分类:编程语言
查看更多

34 楼 syncml 2010-01-15

IK可以不用他自带的词典，而只用我自己定义的词典？

我的目的是想要分析提取出一个文章的所有关键词（我把关键词作为词典）

33 楼 talangniao 2010-01-15

Query query = IKQueryParser.parseMultiField(new String[] {
	                "shop_Name", "keyword" ,"province"}, keyword, flags);
			// 搜索相似度最高的5条记录----如果这里的相似度设置太低，会引起数组越界
			topDocs = isearcher.search(query, null ,5);

设置相似的度为5，但是实际检索大于5，就会引起

Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 1
	at com.xjj.IKAnalyzer.IKAnalyzerDemo.search(IKAnalyzerDemo.java:130)
	at com.xjj.IKAnalyzer.IKAnalyzerDemo.main(IKAnalyzerDemo.java:43)

32 楼 talangniao 2010-01-14

看来是我自己的失误,是不存在问题的.没有引进jk 直接就导入了数据

31 楼 talangniao 2010-01-14

ModifiableSolrParams params = new ModifiableSolrParams();
		//spellCheckCompRH这句是开启solr的拼写检查的！建议先去solr的控制台查询结果看看！
		//如果屏蔽掉的话，是没有什么问题的，因为我有时候是不开启它的，使用没有错误的！
		//params.set("qt", "/spellCheckCompRH");
		params.set("q", "ssh");
		params.set("spellcheck", "on");
		params.set("spellcheck.build", "true");
		QueryResponse response = null;
		try {
			response = solr.query(params);
		} catch (SolrServerException e) {
			e.printStackTrace();
			return;
		}

跟着lianj_lee文章学习,进行查询测试,竟然只能查询出索引库中英文记录,包含中文的记录,检索不出来
直接使用http://localhost:8080/solr/core0/admin/　的查询结果也是一样,包含中文的记录检索不到

<schema name="example core one" version="1.1">
  <types>
   <fieldtype name="string"  class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
   
   <!-- A text field that only splits on whitespace for exact matching of words -->
    <fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
      </analyzer>
    </fieldType>
    <!-- user IK ,代替掉下面的 -->
	<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
	    <analyzer type="index">
			<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" />
			<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
			<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" /> 
			<filter class="solr.LowerCaseFilterFactory" />
			<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
			<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
	    </analyzer>
	    <analyzer type="query">
			<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" />
			<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
			<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
			<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />  
			<filter class="solr.LowerCaseFilterFactory" />
			<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
			<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
	    </analyzer>
	</fieldType> 
  </types>

 <fields>   
  <!-- general -->
  <field name="id"       type="string"    indexed="true"  stored="true"  multiValued="false" required="true"/>
  <field name="type"     type="string"    indexed="true"  stored="true"  multiValued="false" /> 
  <field name="name"     type="string"    indexed="true"  stored="true"  multiValued="false" /> 
  <field name="author"    type="string"   indexed="true"  stored="true"  multiValued="false" />
  <field name="summary"    type="string"   indexed="true"  stored="true"  multiValued="false" />
  <field name="keywords"    type="string"   indexed="true"  stored="true"  multiValued="false" />
  <field name="core1"    type="string"    indexed="true"  stored="true"  multiValued="false" /> 
  <field name="all" type="text" indexed="true" stored="false" multiValued="true"/>  
 </fields>

 <!-- field to use to determine and enforce document uniqueness. -->
 <uniqueKey>id</uniqueKey>

 <!-- field for the QueryParser to use when an explicit fieldname is absent -->
 <defaultSearchField>name</defaultSearchField>

 <!-- SolrQueryParser configuration: defaultOperator="AND|OR" -->
 <solrQueryParser defaultOperator="OR"/>
 
 <copyField source="id" dest="all"/>
 <copyField source="name" dest="all"/>
 <copyField source="summary" dest="all"/>
 <copyField source="author" dest="all"/>
 <copyField source="keywords" dest="all"/>

30 楼 wensky222 2010-01-14

		QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, field,
				analyzer);
		Query query = null;
		query = parser.parse(str);
		// query为PhraseQuery的对象
		query = IKQueryParser.parse(field, str);
//query为 BooleanQuery的对象,不为什么这样呢??

PhraseQuery应该与词语的顺序有关系,而booleanQuery就不一定了.

29 楼 whaosoft 2010-01-13

对了 lz 你经常上什么聊天工具呢?

28 楼 linliangyi2007 2010-01-13

zxzheaven 写道

linliangyi2007 写道

zxzheaven 写道

之前用庖丁，在搜索
“日常用语8000句(102) - 断念、绝望”
可以把有'日常用语"的其他的都可以搜索出来，不过用了这个就不行了

我是用的
query = IKQueryParser.parse("title",queryString);

是不是就是说分词没有起作用？

IKQueryParser默认把“日常用语8000句”解析为“日常”and“用语”and“8000”and“句”，如果你想使用标准的QueryParser，就可以搜索你要的那种结果了

谢谢你的回复，不过我不太明白为什么“日常用语8000句”解析为“日常”and“用语”and“8000”and“句”这样搜索不出来？

默认的是 “或” 的关系吗？

是的。and关系一定是要求几个词都出现在文档的同一field中，这将提高命中率，但降低召回率。如果你的查询短语是“日常用语 8000局”，那么带空格的短语IKQueryParser会解析为or

27 楼 linliangyi2007 2010-01-13

talangniao 写道

现在IK 版本升级了，使用3.2
使用sort1.4版本，升级Lucene到3.0,sort1.4范例中为2.9.1 版本，升级到3.0后，
替换掉jar包，启动发现找不到
严重: java.lang.NoClassDefFoundError: org/apache/lucene/search/ConstantScoreRan
eQuery
at org.apache.solr.handler.admin.AdminHandlers.inform(AdminHandlers.jav
:82)
at org.apache.solr.core.SolrResourceLoader.inform(SolrResourceLoader.ja
a:486)

3.0已经删除掉了ConstantScoreRaneQuery.java ,可是sort1.4中还引用，这个问题应该怎么解决？

solr1.4目前支持的是Lucene2.9啊，这个我就没办法了，不过好在IK3.2是支持Lucene2.9的

26 楼 whaosoft 2010-01-13

songzi0206 写道

linliangyi2007 写道

songzi0206 写道

whaosoft 写道

lucene 有点怪异无法理解为什么不向下兼容~~ ~
对了我在用compass 不知道能不能和你的这个结合呢？
不过我能用庖丁

我之前也用compass，但是性能测试下来貌似并发搜索部分性能达不到预期啊，一般搜索500个并发平均响应时间1100ms，复杂一点搜索还出现过死锁，不知道ls有没有遇到这种情况。

老实说，既然是全文检索，文件数据库比RDB要快的多。你把索引存数据库，中间再由JDBC协议转一手，可定不能高并发了。

我没有把索引存在数据库中，貌似并发搜索部分的瓶颈在compass，直接在lucene基础上写要好不少

真不好意思我今天才看见回帖感谢大家的关注我用compass 完全因为我们公司现在的框架由于框架是我用我之前公司改的而且持久层用hibernate 还要用配置文件那样写所以我只能用compass了而且我也不好推翻自己的框架呀

确实他很慢我感觉简直有点无法忍受后来我没叫compass和spring的事务结合起来查索引时不查数据库了现在速度还能将就用compass 主要因为我要坚持我们要返回pojo的原因感觉挺方便就嫩么用了不过朋友推荐我用sphinx 不知道有用过的没?

25 楼 talangniao 2010-01-13

24 楼 zxzheaven 2010-01-13

linliangyi2007 写道

zxzheaven 写道

IKQueryParser默认把“日常用语8000句”解析为“日常”and“用语”and“8000”and“句”，如果你想使用标准的QueryParser，就可以搜索你要的那种结果了

谢谢你的回复，不过我不太明白为什么“日常用语8000句”解析为“日常”and“用语”and“8000”and“句”这样搜索不出来？

默认的是 “或” 的关系吗？

23 楼 linliangyi2007 2010-01-12

zxzheaven 写道

刚看到lucene3.0带有SmartChineseAnalyzer

那个就是中科院算法的java版了，不过貌似用的是1.0的算法，2.0和3.0算法都是商用的，需要付费。

22 楼 linliangyi2007 2010-01-12

zxzheaven 写道

IKQueryParser默认把“日常用语8000句”解析为“日常”and“用语”and“8000”and“句”，如果你想使用标准的QueryParser，就可以搜索你要的那种结果了

21 楼 zxzheaven 2010-01-12

刚看到lucene3.0带有SmartChineseAnalyzer

20 楼 zxzheaven 2010-01-12

19 楼 zxzheaven 2010-01-12

我想遍历一个字符串的每一个字符，以前是用string.toCharArray()来转换成一个char[]一个一个看的

不过我看到有些，特别是lucene的分词器，他们都是用的stringreader来遍历一个字符串的

是不是stringreader要比string.toCharArray()换成的char[]要来的快？

18 楼 linliangyi2007 2010-01-11

zxzheaven 写道

比较关心和paoding的性能比较，呵呵

最好自己测试吧，呵呵有说快有说慢的，不如自己动手比较一下。

个人认为，分词器到了一定解析速度后，速度已经不是问题，关键是效果了。

17 楼 zxzheaven 2010-01-11

比较关心和paoding的性能比较，呵呵

16 楼 dsf007 2009-12-21

太cool了,更新很及时呢,支持了lucene3.0,希望尽快放出3.2.0的zip格式源码包,svn不如直接下zip爽啊.一直坚持着ik的更新,向你致敬~

15 楼 chrislusf 2009-12-17

不敢当。IKAnalyzer更有名呀。DBSight还没有很多人知道。

其实DBSight是个很好的工具，省去了重新发明轮子的工作。免费版的功能几乎都有。欢迎用用，提出建议。我会改进的。谢谢！

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论