`

全文检索服务SOLR3.3支持IK中文分词

阅读更多

转自:http://sinykk.iteye.com/blog/1171098

 

下载如下三个软件【请注意版本】

1:Solr的下载地址
http://labs.renren.com/apache-mirror//lucene/solr/3.3.0/apache-solr-3.3.0.zip 【使用 D:\solr\apache-solr-3.3.0\example\solr文件夹里的内容】
2:Tomcat的下载地址
http://apache.etoak.com/tomcat/tomcat-6/v6.0.33/bin/apache-tomcat-6.0.33.tar.gz 【使用其运行JAVA WEB】
3:IKAnalyzer下载地址
http://ik-analyzer.googlecode.com/files/IKAnalyzer3.2.8%20bin.zip 【只使用其IKAnalyzer3.2.5Stable.jar】

提前是安装好JDK1.6+,并将每个软件解压到 /sinykk 里


1、将TOMCAT解压到 /usr/local/apache-tomcat-6.0.33/

2、将 /solr/apache-solr-3.3.0/example/solr 文件拷贝到 /usr/local/apache-tomcat-6.0.33/

3、然后修改TOMCAT的/usr/local/apache-tomcat-6.0.33/conf/server.xml【增加中文支持】

 <Connector port="8983" protocol="HTTP/1.1" 
               connectionTimeout="20000" 
               redirectPort="8443" URIEncoding="UTF-8"/>

 

 4、添加文件 /usr/local/apache-tomcat-6.0.33/conf/Catalina/localhost/solr.xml 内容如下

 

 

<?xml version="1.0" encoding="UTF-8"?>
<Context docBase="/usr/local/apache-tomcat-6.0.33/webapps/solr" debug="0" crossContext="true" >
   <Environment name="solr/home" type="java.lang.String" value="/usr/local/apache-tomcat-6.0.33/solr" override="true" />
</Context>
 

5、将/sinykk/solr/apache-solr-3.3.0/example/webapps/solr.war文件放到/usr/local/apache-tomcat-6.0.33/webapps文件夹下,并启动TOMCAT

6、将/sinykk/solr/IKAnalyzer3.2.8.jar 文件放到/usr/local/apache-tomcat-6.0.33/webapps/solr/WEB-INF/lib 目录下


7、修改/usr/local/apache-tomcat-6.0.33/solr/conf/schema.xml文件为

 

<?xml version="1.0" encoding="UTF-8" ?>
<schema name="example" version="1.4">
 <types>
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
	 <!-- 
	<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>
	-->

	 <fieldType name="textik" class="solr.TextField" >
               <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>  
       
               <analyzer type="index">  
                   <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>  
                   <filter class="solr.StopFilterFactory"  
                           ignoreCase="true" words="stopwords.txt"/>  
                   <filter class="solr.WordDelimiterFilterFactory"  
                           generateWordParts="1"  
                           generateNumberParts="1"  
                           catenateWords="1"  
                           catenateNumbers="1"  
                           catenateAll="0"  
                           splitOnCaseChange="1"/>  
                   <filter class="solr.LowerCaseFilterFactory"/>  
                   <filter class="solr.EnglishPorterFilterFactory"  
                       protected="protwords.txt"/>  
                   <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>  
               </analyzer>  
     			<analyzer type="query">  
                   <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>  
                   <filter class="solr.StopFilterFactory"  
                           ignoreCase="true" words="stopwords.txt"/>  
                   <filter class="solr.WordDelimiterFilterFactory"  
                           generateWordParts="1"  
                           generateNumberParts="1"  
                           catenateWords="1"  
                           catenateNumbers="1"  
                           catenateAll="0"  
                           splitOnCaseChange="1"/>  
                   <filter class="solr.LowerCaseFilterFactory"/>  
                   <filter class="solr.EnglishPorterFilterFactory"  
                       protected="protwords.txt"/>  
                   <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>  
               </analyzer>  
       
</fieldType>
 </types>


 <fields>
  <field name="id" type="string" indexed="true" stored="true" required="true" /> 
 </fields>

 <uniqueKey>id</uniqueKey>

</schema>

 

 

最后运行http://192.168.171.129:8983/solr/admin/analysis.jsp

效果图如下

 


 

分享到:
评论

相关推荐

    solr4.1+IK中文分词

    Solr4.1 + IK中文分词是针对Apache Solr搜索引擎的一个重要组合,它使得在中文环境下进行全文检索和分析变得更加高效和精确。Apache Solr是一个开源的企业级搜索平台,基于Lucene库,提供了高性能、可扩展的全文索引...

    支持solr5.5 solr6.0中IK分词需要的资料

    IK分词器(Intelligent Chinese Analyzer for Solr,简称IK)是一款针对中文的高效分词工具,专为Solr和Lucene设计,旨在提高中文文本检索的准确性。 标题和描述提到的是针对Solr 5.5和Solr 6.0版本的IK分词器支持...

    solr5的ik中文分词器源码

    Solr5是一款强大的开源搜索引擎,它提供了全文检索、命中高亮、分类聚类等多种功能,广泛应用于企业级的信息检索系统。在处理中文文本时,一个关键的组件就是中文分词器,而IK(Intelligent Chinese)分词器是Solr...

    solr全文检索+IK分词器

    Solr全文检索与IK分词器的整合是构建高效中文搜索引擎的关键步骤。Solr,作为Apache Lucene的一个开源搜索服务器,提供了强大的全文检索、高级索引和搜索功能。而IK分词器(Intelligent Chinese Analyzer for Solr)...

    支持 Solr7 的 ik 分词器

    2. **Solr7.0集成IK分词器.docx**:这是一份详细的文档,指导用户如何在 Solr 7 中配置和使用 ik 分词器。它会涵盖安装步骤、配置参数设置以及可能出现的问题及其解决方案,对于初次使用者来说非常有价值。 3. **ik...

    IK分词solr5.0.0

    在Solr 5.0.0中使用IK分词器,可以显著提高中文文本的检索效果,通过智能分词和新词识别,使得用户输入的关键词能够更准确地匹配到文档中的内容。同时,通过调整分词器的配置,还能进一步优化搜索体验,满足不同的...

    solr安装包与ik中文分词器.zip

    Solr的核心功能包括文档的索引和检索,支持多种数据源的导入,如CSV、XML等,并且可以实现复杂的查询、排序和 faceting(分类)。其分布式特性使得Solr能够处理海量的数据,同时提供了实时搜索、热备切换等功能,...

    solr ik分词器

    本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是分词器。在文本检索和自然语言处理领域,分词是将连续的文本分解成有意义的词语单元(如单词或短语)的过程。对于中文,由于没有明显...

    solr6.1.0的IK中文分词

    1. **下载与安装**:从官方仓库或者第三方源获取IK分词器的最新版本,将其解压到Solr的lib目录下。 2. **配置solrconfig.xml**:在Solr的配置文件中,添加IKAnalyzer的定义,并指定词典路径。 3. **创建字段类型**...

    solr ik中文分词

    总的来说,这个压缩包提供了一整套的中文分词解决方案,包括了分词器本身、使用手册、分词库以及辅助工具,帮助用户在Solr环境中实现高效、精准的中文全文检索。对于需要处理大量中文数据的项目,这是一个非常有价值...

    solr-4.10.3+ik分词器

    总的来说,Solr 4.10.3版本结合IK分词器,为在Linux环境下搭建高性能的中文搜索服务提供了便利。通过合理的配置和优化,可以有效地提升搜索质量和效率,满足企业的各种搜索需求。在后续的运维中,定期更新索引、监控...

    针对Solr6.6.0的IK分词器

    Solr6.6.0中的IK分词器是用于对中文文本进行精细化分词的工具,它是基于Apache Lucene的开源搜索引擎项目Solr的一个插件。这个插件的主要任务是将中文句子分解成一系列有意义的词语,以便于索引和搜索。在Solr中,...

    solr6.x_IK中文分词工具

    总的来说,Solr6.x结合IK中文分词工具,为中文信息检索提供了强大的支持。通过合理的配置和定制,我们可以构建出满足各种业务需求的高效搜索引擎。对于开发者来说,掌握如何在Solr中集成和使用IK分词器是一项必备的...

    solr+IK分词集成tomcat实现全文检索

    Solr+IK分词集成Tomcat实现全文检索是构建高效搜索引擎的关键步骤,尤其在电子商务等大量数据检索场景中,这一技术的应用尤为重要。本教程将详细阐述如何通过Solr结合IK分词器,在Tomcat服务器上搭建一个功能完备的...

    solr4的IK中文分词器IKAnalyzer2012FF_u1.jar和相关xml文件

    "solr4的IK中文分词器IKAnalyzer2012FF_u1.jar和相关xml文件"是用于优化Solr在处理中文内容时的关键组件。 IKAnalyzer2012FF_u1.jar是一个Java库,它是IK Analyzer的一个版本,专门设计用于中文分词。IK Analyzer是...

    solr7 的 ik分词器

    Solr7的IK分词器是针对中文文本检索的一个重要工具,它在全文检索领域扮演着关键角色。IK Analyzer是一款开源的、适用于Java环境的中文分词组件,专为提高中文信息处理的效率和准确性而设计。在Solr7版本中,IK分词...

    Solr-ik分词

    通过以上步骤,你可以在Solr中使用Ik分词器对中文内容进行高效索引和查询,同时结合MySQL数据库实现数据的实时同步和检索。 总结一下,Ik分词器是Solr处理中文文本的关键组件,它通过动态词汇表和两种分词模式提供...

    solr6.0中IK分词需要的资料

    IK分词器(Intelligent Chinese Analyzer for Solr)是针对中文的一种高效、灵活的分词工具,特别适合于Solr和Elasticsearch等全文检索引擎。在这个压缩包文件中,包含了Solr6.0使用IK分词所需的一些关键资料。 ...

    solr中文分词器ik-analyzer-solr7.x

    IK Analyzer在Solr7.x版本中的应用,意味着它可以与Solr7.x完美集成,提供高效的中文分词功能,助力中文文本的检索和分析。 ** IK Analyzer简介** IK Analyzer诞生于2006年,由尹吉欢(Yin Jihuan)开发,旨在解决...

Global site tag (gtag.js) - Google Analytics