1.solr分词的主要配置文件之一: schema.xml,添加IKAnalyzer 2012FF_hf1分词配置方式一如下:
<fieldType name="text_cn" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer" />
</fieldType>
2.将IKAnalyzer2012FF_u1.jar放到%SOLR_HOME%/example/solr-webapp/webapp/WEB-INF/lib下。
3.cd %SOLR_HOME%/example/执行:
java -jar start.jar
4.访问:http://localhost:8983/solr
选择coreName:collection1 -->Analysis,Analyse Fieldname / FieldType:这里选择我们定义的text_cn,接着执行中文分词测试:
5.由分词结果可知,IKAnalyzer的默认分词模式为细粒度分词,但有的时候我们想要却是智能分词。此版本去除了之前提供的IKTokenizerFactory,故此重新实现,让其支持智能分词。
实现代码如下:
package org.wltea.analyzer.lucene;
import java.io.Reader;
import java.util.Map;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
public class IKTokenizerFactory extends TokenizerFactory{
private final boolean useSmart;
public IKTokenizerFactory(Map<String, String> args) {
super(args);
this.useSmart = getBoolean(args, "useSmart", false);
}
@Override
public Tokenizer create(AttributeFactory factory, Reader in) {
return new IKTokenizer(in,this.useSmart);
}
}
6.将此类打包到IKAnalyzer2012FF_u1.jar中,接下来修改schema.xml,添加第二种IKAnalyzer 2012FF_hf1分词配置方式,使其支持智能分词(useSmart用来制定是否使用智能分词):
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
7.重新启动solr,进行分词测试:
可以看到index采用的为默认的细粒度分词,query采用的为智能分词.
到此,简单的solr中文分词server搭建完毕,接下来准备使用spring-data-solr构建搜索,索引创建,更新,高亮等后续操作,且听下回忽悠。。。。
- 大小: 325.3 KB
- 大小: 252.6 KB
分享到:
相关推荐
描述中提到的"FastDFS集群安装所需要的安装包"表明IKAnalyzer2012FF_hf1.zip可能与FastDFS系统的配置或集成有关。FastDFS是一个高性能、轻量级的分布式文件系统,特别适合于存储大量小文件,如图片、文档等。在...
总的来说,IK Analyzer 2012FF_hf1是专门为中文文本处理设计的分词工具,它的存在使得Solr等搜索引擎在处理中文数据时更加精准和高效。在使用时,用户可以根据项目需求,通过调整配置和定制插件,进一步优化其性能。
2012FF_hf1 版本是IK Analyzer的一个特定版本,HF1代表Hot Fix 1,即该版本是对2012FF版本的小幅修正版。 IK Analyzer 2012FF_hf1 版本在原有的基础上进行了性能优化和错误修复,确保了其在处理中文文本时的准确性...
"solr分词 IKAnalyzer2012FF_hf1.rar" 包含的是一个针对Solr优化的IK分词器版本,即IKAnalyzer2012FF_hf1。这个版本在原版IKAnalyzer的基础上进行了改进,提高了对中文词汇的处理能力,特别是对于复杂语境和新词识别...
IK Analyzer 2012FF_hf1 包含两个主要的文件:`IK Analyzer 2012FF_hf1.zip` 和 `IK Analyzer 2012FF_hf1_source.rar`。`IK Analyzer 2012FF_hf1.zip` 很可能包含了IK Analyzer的编译版本,包括必要的jar文件,这些...
solr的lucene的新版本接口都进行了修改,除非修改实现不然就没法向下兼容,但是我们也有办法的,我们可以利用他的分词工具自己封装一个TokenizerFactory,通过实现最新的接口就可以让solr新版本用上ik了。
IK Analyzer是一款广泛...总之,IK Analyzer 2012FF_hf1是Solr进行中文处理的重要工具,它通过精细的分词策略和高度定制化的能力,显著提升了中文文本的索引和检索性能,是Java开发者处理中文信息时不可或缺的利器。
为了进一步了解IK Analyzer 2012FF_hf1的具体内容和使用方法,可以解压"IK Analyzer 2012FF_hf1.zip"文件,查看其中的文档、源码和示例。通常,压缩包内会包含以下内容: 1. **源代码**:展示了分词器的实现细节,...
IKAnalyzer2012FF_u1.jar 是一款广泛应用于Java环境中的中文分词库,尤其在搜索引擎和文本分析领域有着重要的应用。这个jar包包含了IK Analyzer的最新版本,即2012FF_u1更新版,它是一款开源的、高性能的中文分词...
在本案例中,我们关注的是"IK Analyzer 2012FF_hf1 Solr4"版本,这是针对Solr4.x版本优化的IK分词器的一个更新。 首先,"stopword.dic"是停用词词典,包含了常见的无意义词汇,如“的”、“是”、“在”等,这些...
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...
在使用ikanalyzer2012ff_u1时,用户通常需要将其配置到Solr的schema.xml文件中,指定分词器的类名,如`<analyzer type="index">`和`<analyzer type="query">`部分。同时,还需要将提供的词典文件正确地部署到Solr的...
内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic
1. **下载并引入IK Analyzer**:首先需要将"IK Analyzer 2012FF_hf1.jar"文件放入Solr的lib目录下,以供Solr使用。 2. **配置schema.xml**:在Solr的conf目录下,修改schema.xml文件,为需要分词的字段指定`...
IKAnalyzer2012FF_u1.jar,同义词版本,本人亲测,木有问题,可以配置Solr的同义词,