solr中对于分词结果的获得即分析 -

suichangkele

浏览: 202758 次
性别:
来自: 北京

最近访客更多访客>>

jieyuan_cg

z9780420

jzhfmm

geeksun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

solr中对于分词结果的获得即分析

博客分类：

solr

solr 分词结果

在使用solr的时候，在管理页面的analysis中可以发现有对词的分析的展示，在solrj中同样提供了方法获得，记个笔记，方便以后再用的着。

使用solrj获得分词结果要使用FieldAnalysisRequest类。

solrj提供的接口的逻辑和管理页面的逻辑一样，先是区分建立索引和查询两种情况（比如ik的使用时就是在建立索引的时候不适用智能分词，而在查询时启用智能分词），每种情况的分词时再区分是哪个域（fieldName)或者是域的类型（filedTypes)。对于第一个体现在FieldAnalysisRequest的fieldValue和query上，如果是建立索引时的分词就使用fieldValue，否则使用query（我已经做过测试），不过比较尴尬的是solrj不支持仅仅对query的设定，即如果不设置fieldValue的话就会空指针的异常，我猜测他这个功能并不是完全模仿管理页面的分词，因为在返回的结果中他还提供了match的功能，也就是将query的和fieldValue的分词是否match体现出来，所以他不允许fieldValue为null也就可以仅仅理解为他的局限性了。对于第二个的体现是fieldNames和fieldTypes的设置上，即设置多个要匹配的分词的域的名字或者是类型，以此得到分词器，注意这里无论是name还是type都是可以设置多个的，然后再获得结果的时候指定要获得域的名字或者类型的名字。

要获得分词的结果需要使用solrServer，调用FieldAnalysisRequest.process(solrServer)方法，获得一个FieldAnalysisResponse——也就是分词的结果。在这里面结果体现在两个map中，一个是fieldName的，一个是fieldType的，可以通过调用getFieldTypeAnalysis(String type)或者getFieldNameAnalysis(String name)获得对于某一个域的分词器的处理结果，处理结果用Analysis封装。在Analysis中，同样存在建立索引时和查询时的结果，也就是对应于fieldValue和query的分词结果，这样就和上面的分析对应起来了。最终的分词结果是AnalysisPhase，对于建立索引的结果还是查询时的，都是有多个AnalysisPhase，而且一个AnalysisPhase中还有多个TokenInfo，这个我有点吃不透，为啥不是直接一个List<Token>呢？尽管在AnalysisPhase中添加了分词器的类名，但是还是搞不懂为啥要分两层。

最后上代码

public static void main(String[] args) throws SolrServerException, IOException {
	// 链接solrCloud
	CloudSolrServer server = new CloudSolrServer("10.6.8.96:2181/shard_test");
	server.setZkClientTimeout(1000*60);
	server.setDefaultCollection("article");
	FieldAnalysisRequest request = new FieldAnalysisRequest();

	request.setFieldNames(java.util.Collections.singletonList("title"));//这里可以设置多个fieldName，或者是fieldType，但是我们这里只是一个，用来作为例子
	request.setFieldValue("我来自中国山东 我们那里有很多好吃的");//设置建立索引时的分词的内容
	request.setQuery("我来自中国山东 我们那里有很多好吃的");//设置查询时的分词的内容
	
	FieldAnalysisResponse response = request.process(server);
	Analysis sis = response.getFieldNameAnalysis("title");//指定要获得的域的名字，因为上面是setFieldNames，所以这里是getFieldNameAnalysis，如果上面是setFieldTypes，则这里就要调用getFieldTypeAnalysis
		
	// 获得fieldValue的分词结果
	Iterator<AnalysisPhase> result = sis.getIndexPhases().iterator();
	while(result.hasNext()){
		AnalysisPhase pharse = result.next();
		List<TokenInfo> list = pharse.getTokens();
        for (TokenInfo info : list) {
        	System.out.println(info.getText());//info还有很多的属性，这里没有设置
        }
	}
		
	// 获得query的
	result = sis.getQueryPhases().iterator();
	while(result.hasNext()){
        AnalysisPhase pharse = result.next();
		List<TokenInfo> list = pharse.getTokens();
	       for (TokenInfo info : list) {
	       	System.out.println(info.getText());
	       }
	}
}

分享到：

solrCloud中CompsiteId路由策略的collecti ... | 关于jvm监控配置的笔记

2017-03-01 20:29
浏览 2132
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr中对于分词结果的获得即分析

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr中对于分词结果的获得即分析

评论

发表评论

相关推荐

solr的facet源码解读（四）——facet.field之非数字单值域类型

solr的facet源码解读（三）——facet.field之数字单值域类型

solr的facet源码解读（二）——facet.field

lucene中关于正向信息的获取——FielldCache

solr的facet源码解读（一）——facet.query

solr(lucene)的reRank的核心实现源码解读

solr中的filterCache使用场景源码解读

solr(lucene)中的value source

关于functionQuery的一个误区

solr的主从复制实现原理

solr VS es

solr中的reload

solr中schema.xml中域的omitNorm属性

solr中的dismax解析器

solr中的同义词配置以及关键源码解读

如何查看solr中cache的使用情况

solr中与SolrIndexSearcher相关的其他配置

solr中的SolrEventListener以及cache统计信息的获得

solr的warm

solr的cache在SolrIndexSearcher中的使用

最近访客更多访客>>