`
lalanicer
  • 浏览: 29979 次
社区版块
存档分类
最新评论

Solr4:加入中文分词IKAnalyzer2012 FF

 
阅读更多

前提是已经在Tomcat7下面配置好Solr4.0,详情参考:Solr4:Tomcat7下面配置Solr

注意:Solr4.0需要IKanalyzer 2012 FF以上版本。
1.下载IKAnalyzer包
下载地址:http://code.google.com/p/ik-analyzer/downloads/list
2.解压IK Analyzer 2012FF_hf1.zip包
用到其中三个文件:
IKAnalyzer2012FF_u1.jar,放到$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
IKAnalyzer.cfg.xml,stopword.dic,放到$CATALINA_HOME/webapps/solr/WEB-INF/classes/目录下
3.设置IKAnalyzer中文分词
修改$SOLR_HOME/collection1/conf/schema.xml文件,在<types></types>中增加如下内容:

复制代码
<fieldType name="text_ik" class="solr.TextField"> 

    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
    <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 

  </fieldType>          
复制代码

查询采用IK自己的最大分词法,索引则采用它的细粒度分词法,各自配置了isMaxWordLength属性。
修改$SOLR_HOME/collection1/conf/schema.xml文件,在<fields></fields>中修改如下内容:

  <field name="content" type="text_ik" indexed="false" stored="true" multiValued="true"/>
  <field name="text" type="text_ik" indexed="true" stored="false" multiValued="true"/>
  ......
  <copyField source="content" dest="text"/>

也可以自己增加删除相关字段。
4.重建索引,查询即可
具体过程参考上一篇文章。或者是通过http://localhost:8080/solr/#/collection1/analysis,然后在Analyse Fieldname / FieldType:下拉选择框中选择"text_ik",关闭Verbose Output核选框,在Field Value (Index)Field Value (Query)中输入中文句子,点击"Analyse Values"即可以看到分词结果。

 

顺便也贴下SmartChineseAnalyzer的配置
1.拷贝~/solr/contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-4.0.0.jar$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
2.拷贝上述包中的stopwords.txt$SOLR_HOME/collection1/conf/lang/stopwords_zh-cn.txt
3.修改$SOLR_HOME/collection1/conf/schema.xml文件,在<type></types>中增加如下内容:

复制代码
 <fieldType name="text_zh-cn" class="solr.TextField" positionIncrementGap="100">
   <analyzer>
    <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
    <filter class="solr.SmartChineseWordTokenFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.PositionFilterFactory" />
    <filter class="solr.StopFilterFactory" ignoreCase="false" words="lang/stopwords_zh-cn.txt" enablePositionIncrements="true"/>
   </analyzer>
  </fieldType>
复制代码

4.其它省略
   
也可以比较IKAnalyzer与Lucene自带的SmartChineseSentenceTokenizerFactory的差别,可以通过http://localhost:8080/solr/#/collection1/analysis中选择不同的分词器来查看。

转载自:http://www.cnblogs.com/nayitian/archive/2013/01/18/2866733.html

分享到:
评论

相关推荐

    solr分词 IKAnalyzer2012FF_hf1.rar

    综上所述,"solr分词 IKAnalyzer2012FF_hf1.rar" 是一个专门用于Solr的中文分词解决方案,它提供了强大的分词功能,适用于多种中文搜索和分析场景。正确配置和使用IKAnalyzer,能够显著提升Solr在处理中文内容时的...

    solr4的IK中文分词器IKAnalyzer2012FF_u1.jar和相关xml文件

    "solr4的IK中文分词器IKAnalyzer2012FF_u1.jar和相关xml文件"是用于优化Solr在处理中文内容时的关键组件。 IKAnalyzer2012FF_u1.jar是一个Java库,它是IK Analyzer的一个版本,专门设计用于中文分词。IK Analyzer是...

    IK 分词器 IK Analyzer 2012FF_hf1 Solr4

    "IKAnalyzer中文分词器V2012_FF使用手册.pdf"是分词器的使用指南,提供了详细的配置和使用方法,包括如何集成到Solr中,如何定制词典,以及如何调整分词器参数以达到最佳效果。 "LICENSE.txt"和"NOTICE.txt"是开源...

    IK Analyzer 2012FF_hf1.7z

    总的来说,IK Analyzer 2012FF_hf1是专门为中文文本处理设计的分词工具,它的存在使得Solr等搜索引擎在处理中文数据时更加精准和高效。在使用时,用户可以根据项目需求,通过调整配置和定制插件,进一步优化其性能。

    IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...

    IKAnalyzer2012FF_hf1.zip

    标题中的"IKAnalyzer2012FF_hf1.zip"指的是IK Analyzer的2012年最终版(Final)的高频率更新1(Hot Fix 1)。IK Analyzer是一款开源的、基于Java语言开发的轻量级中文分词器,主要用于Java环境下对中文文本的分词...

    solr4.7+中文分词器IK Analyzer 2012FF_hf1

    IK Analyzer 2012FF_hf1 是一个针对中文的分词器,专为处理中文文本而设计,旨在提高中文文本的索引和搜索效率。这个组合在描述中提到已经过测试,证明它们可以协同工作,为中文搜索引擎应用提供有效的支持。 Solr ...

    IKAnalyzer2012FF_u1.jar下载

    IKAnalyzer2012FF_u1.jar 是一款广泛应用于Java环境中的中文分词库,尤其在搜索引擎和文本分析领域有着重要的应用。这个jar包包含了IK Analyzer的最新版本,即2012FF_u1更新版,它是一款开源的、高性能的中文分词...

    IKAnalyzer2012FF_u1 ik solr分词器

    IKAnalyzer2012FF_u1是一款针对中文分词的开源工具,主要应用于搜索引擎和文本分析领域,尤其在Solr中被广泛使用。这个版本是IK Analyzer的2012最终版更新1(Final Full Update 1),它提供了一种高效、灵活的中文...

    Solr安装与整合中文分词IKAnalyzer

    ### Solr安装与整合中文分词IKAnalyzer #### Solr简介 Apache Solr是一款开源的全文搜索引擎平台,基于Java开发,能够提供高效的数据检索服务。它支持多种索引方式,并且能够灵活地处理各种类型的数据,包括文本、...

    ikanalyzer2012ff_u1

    总结来说,ikanalyzer2012ff_u1 是针对Solr 4.10.3优化的IK分词器,提供高效且可定制化的中文分词功能,适用于各种需要中文处理的搜索和分析场景。对于需要处理大量中文数据的应用,选择合适的分词器是提升系统性能...

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...

    中文分词器IK Analyzer 2012FF_hf1_Solr4.x.rar

    内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic

    IKAnalyzer2012FF_u1中文分词器

    总之,IKAnalyzer2012FF_u1是一个适用于全文检索的中文分词器,特别适合与Solr等搜索引擎配合使用,提供高效的中文分词服务。其自定义词典功能和动态加载能力使得它能适应各种应用场景,而持续的版本更新则保证了其...

    IK Analyzer 2012FF_hf1及IK Analyzer 2012FF_hf1_source位于GOOGLE_CODE的资源转发

    总之,IK Analyzer 2012FF_hf1 是一个针对Java开发者的强大中文分词工具,提供了高性能、易用的分词服务,并且具有良好的可扩展性和灵活性。通过下载源码,开发者可以深入研究其内部机制,定制适合自己需求的分词...

    中文分词器IK Analyzer 2012FF_hf1

    亲测可用的中文分词器,也可以到IK Analyzer官网下载,网址如下: https://code.google.com/archive/p/ik-analyzer/downloads 在solrcode的schema.xml文件中的配置如下: 配置中文分词器的fieldType: ...

    IK Analyzer 2012FF_hf1

    总之,IK Analyzer 2012FF_hf1是一个适用于各种平台、与Apache Solr良好集成的中文分词工具,能够提供高效的中文分词服务,是处理中文文本数据的有力助手。对于需要处理大量中文信息的企业和开发者来说,了解并掌握...

    IK Analyzer 2012FF_u1.rar

    总的来说,IK Analyzer 2012FF_hf1是专为Solr4.x设计的优化版分词器,它提供了高效的中文分词能力,对于搭建和优化中文搜索引擎环境具有重要意义。通过合理配置和使用,可以显著提升搜索的准确性和响应速度,满足...

    中文分词器-IKAnalyzer2012FF_u1.jar

    总的来说,IKAnalyzer2012FF_u1.jar是一款强大的中文分词工具,它通过灵活的字典匹配和配置选项,为各种应用场景提供了高效的中文文本处理能力。在Solr这样的全文检索系统中,配合stopword.dic、ext.dic和IKAnalyzer...

Global site tag (gtag.js) - Google Analytics