lucene同义词分词器

itace

浏览: 188329 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

wangyy

tianshiguishu

Sharpleo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

同义词

public class SynonymAnalyzer extends Analyzer{

	@Override
	protected TokenStreamComponents createComponents(String fieldname, Reader reader) {
		
		SynonymMap.Builder builder = new SynonymMap.Builder(true);
		//Be sure the boolean last arg you pass there is the one you want.  There are significant tradeoffs here.
		//Add as many terms as you like here...
		builder.add(new CharsRef("中华"), new CharsRef("华夏"), true);
//		builder.add(new CharsRef("中国"), new CharsRef("华夏"), true);
//		builder.add(new CharsRef("喀什米尔"), new CharsRef("克什米尔"), true);
		
		Set<String> keys = DataCache.SYNONYMS.keySet();
		for (String key : keys) {
			String[] samewords = DataCache.SYNONYMS.get(key);
			for (String word : samewords) {
				builder.add(new CharsRef(key), new CharsRef(word), true);
//				System.out.println(key+"--"+word);
			}
		}
		
//		CharsRef multiWordCharsRef = new CharsRef();
//		SynonymMap.Builder.join(new String[]{"中华", "华夏"}, multiWordCharsRef);
//		builder.add(new CharsRef("中国"), multiWordCharsRef, true);
		
		SynonymMap mySynonymMap = null;
		try {
			mySynonymMap = builder.build();
//			mySynonymMap = null;
		} catch (IOException e) {
			e.printStackTrace();
		}
		Tokenizer source = new AnsjTokenizer(new ToAnalysis(reader), reader,null,true);
		//Tokenizer source = new AnsjTokenizer(new IndexAnalysis(reader), reader,null,true);
//		Tokenizer source = new ClassicTokenizer(Version.LUCENE_46, reader);
	    TokenStream filter = new StandardFilter(Version.LUCENE_40, source);
	    filter = new LowerCaseFilter(Version.LUCENE_40,filter);
	    
	    filter = new SynonymFilter(filter, mySynonymMap, false);
	    //Whatever other filter you want to add to the chain, being mindful of order.
	    return new TokenStreamComponents(source, filter);
	    
	}
	
	
}

分享到：

apache+tomcat+jk负载均衡 | java分页类

2014-02-27 11:13
浏览 609
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene同义词分词器

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene同义词分词器

评论

发表评论

相关推荐

Lucene updateDocument注意问题

solr4.0安装和使用

最近访客更多访客>>