关于solr不能搜索中文 -

longxia1987

浏览: 36279 次
性别:
来自: 上海

最近访客更多访客>>

jackzhao1980

zjfmail

Luob.

yaya_wiscom

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

关于solr不能搜索中文

关于solr不能搜索中文

1、需要配置中文分词器，我在此使用的IKAnalyzer分词器,需要jar :IKAnalyzer3.2.8.jar

schema.xml

<fieldType name="text" class="solr.TextField">
	<analyzer type="index">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" />
		<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
		<filter class="solr.LowerCaseFilterFactory" />
	</analyzer>

	<analyzer type="query">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true" />
		<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
		<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
		<filter class="solr.LowerCaseFilterFactory" />
	</analyzer>
</fieldType>

分词配好之后，我们可以再solr的管理页面的[ANALYSIS] 的页面来进行分词测试：

这样你输入中华的时候，就可以匹配到 “中华人民共和国”；上图你可以清楚的看到分词器如何将中华人民共和国分割的

通常我们为了搜索的方便，都用keyword来搜索：

 <fields>  
	<field name="id" type="sint" indexed="true" stored="true" required="true" />  
	<field name="userName" type="string" indexed="true" stored="true"/>  
	<field name="gender" type="string" indexed="true" stored="true"/>  
	<field name="address" type="string" indexed="true" stored="true" />  
	<field name="createTime" type="date" indexed="true" stored="true" default="NOW"/> 
	<!-- 关键字-->
	<field name="keyword" type="text" indexed="true" stored="true" multiValued="true" /> 
 </fields>

  <copyField source="gender" dest="keyword"/>  
  <copyField source="address" dest="keyword"/>  
  <copyField source="userName" dest="keyword"/>

这样你搜索keyword=xxx 的时候，那么就会去gender，address，userName里面去找符合的结果。

2、如果分词器也配置好了，还是搜索不出来中文（我就出现这样的问题），那可能就是solr的字符集和tomcat的字符集不统一

我输入男子的时候，我发现在tomcat里面出现一条请求

乱码，应该就是字符集的问题，solr的默认字符集为UTF-8；所以我将tomcat的字符集设置成UTF-8

<Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" URIEncoding="UTF-8" redirectPort="8443" />

重启tomcat

ok,解决问题

分享到：

js判断是http还是https | PostgreSQL函数和运算符

2012-08-21 10:45
浏览 686
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于solr不能搜索中文

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于solr不能搜索中文

评论

发表评论

相关推荐

最近访客更多访客>>