Apache Solr 实践(一)solr在Tomcat中部署部署及中文分词配置

shuaizhuaidym

浏览: 42276 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

yidianzhizhuo

wd1282988143

zzly

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr

之前看过Lucen方面的资料，但是一直没机会使用，也就没深入。当时觉得中文分词效果一直不理想，也尝试过几个开元插件，IK,paoding... 直到去年因项目需要，开始了解Lucen的封装框架Solr，同时实践了中科院分词的Java开元版本imdict-chinese-analyzer ，效果很好。以下是实践的过程，solr版本为4.3.0

第一步按照http://wiki.apache.org/solr/SolrInstall开始搭建开发环境

1、将solr-4.3.0.war拷贝到tomcat/webapps/重命名为solr.war

2、修改solr.war/WEB-INF/web.xml，配置solr/home，将以下片段取消注释

    <env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>E:/SOLR_HOME/solr</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
    </env-entry>

这里将solr/home配置为E:/SOLR_HOME/solr,其内容拷贝自solr-4.3.0\example\solr

3、拷贝slf4j-api-1.6.6.jar，slf4j-log4j12-1.6.6.jar，log4j-1.2.16.jar，commons-logging-1.0.4.jar到solr.war/WEB-INF/lib目录

4、新建solr.war/WEB-INF/classes/目录，新建log4j.properties配置日志

启动tomcat，访问http://localhost/solr/看见solr管理控制台，部署成功。

第二步配置中文分词。

imdict.jar已经集成到solr发布版本中，位于solr-4.3.0\contrib\analysis-extras\lucene-libs包名为lucene-analyzers-smartcn-4.3.0.jar，增加配置即可。

1、修改sole/home/collection1/conf/schema.xml，在types节电下增加如下片段

	<!-- 配置smartcn分词器 -->
	<fieldType name="text_zh" class="solr.TextField"  positionIncrementGap="100">			
			<analyzer type="index">
				<!-- 此处需要配置主要的分词类 -->
				<tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseSentenceTokenizerFactory" />
				<filter class="solr.SmartChineseWordTokenFilterFactory" />
			</analyzer>
			<analyzer type="query">
				<!-- 此处配置同上 -->
				<tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseSentenceTokenizerFactory" />
				<filter class="solr.SmartChineseWordTokenFilterFactory" />
			</analyzer>		
	</fieldType>

2、将相关jar拷贝至solr.war/WEB-INF/lib目录下

重新启动Tomcat，访问solr控制台即可看到效果。如图

solr zh

以上solr/home硬编码到程序中，不便维护，也可以通过配置的方式部署，即不拷贝solr.war，新建tomcat/conf/Catalina/localhost/solr.xml内容如下

<?xml version="1.0" encoding="GB2312"?>
<Context docBase="position_of_solr.war" debug="0" crossContext="true">
	<Environment name="solr/home" type="java.lang.String" 
		value="your_solr_home" override="true"/>
</Context>