`

Solr 4.10.2整合IKAnalyzer 2012FF_hf1 智能分析与细粒度分析配置useSmart

 
阅读更多
1.solr分词的主要配置文件之一: schema.xml,添加IKAnalyzer 2012FF_hf1分词配置方式一如下:
 <fieldType name="text_cn" class="solr.TextField">
  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer" />
  </fieldType>

2.将IKAnalyzer2012FF_u1.jar放到%SOLR_HOME%/example/solr-webapp/webapp/WEB-INF/lib下。
3.cd %SOLR_HOME%/example/执行:
java -jar start.jar
4.访问:http://localhost:8983/solr
选择coreName:collection1 -->Analysis,Analyse Fieldname / FieldType:这里选择我们定义的text_cn,接着执行中文分词测试:




5.由分词结果可知,IKAnalyzer的默认分词模式为细粒度分词,但有的时候我们想要却是智能分词。此版本去除了之前提供的IKTokenizerFactory,故此重新实现,让其支持智能分词。
实现代码如下:

package org.wltea.analyzer.lucene;

import java.io.Reader;
import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;

public class IKTokenizerFactory extends TokenizerFactory{
 private final boolean useSmart;
 public IKTokenizerFactory(Map<String, String> args) {
  super(args);
  this.useSmart = getBoolean(args, "useSmart", false);
 
 }

 @Override
 public Tokenizer create(AttributeFactory factory, Reader in) {
  return new IKTokenizer(in,this.useSmart);
 }

}

6.将此类打包到IKAnalyzer2012FF_u1.jar中,接下来修改schema.xml,添加第二种IKAnalyzer 2012FF_hf1分词配置方式,使其支持智能分词(useSmart用来制定是否使用智能分词):
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
  <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false"/>
  <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
  <analyzer type="query">
  <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
  <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
    </fieldType>

7.重新启动solr,进行分词测试:



可以看到index采用的为默认的细粒度分词,query采用的为智能分词.
到此,简单的solr中文分词server搭建完毕,接下来准备使用spring-data-solr构建搜索,索引创建,更新,高亮等后续操作,且听下回忽悠。。。。



  • 大小: 325.3 KB
  • 大小: 252.6 KB
分享到:
评论
3 楼 hvang1988 2015-12-03  
shoringchow 写道
刚才的图没有弄好,如下索引中虽然有”九阳豆浆机DJ13B-D600SG“这个商品,但使用“豆浆机DJ13B”搜索的时候搜索不到,主要是因为IK分词分割拉丁字母和阿拉伯数字的时候会保留原字符串,我如何将原字符串剔除出分词后的结果中?谢谢!


九阳豆浆机DJ13B
“九阳豆浆机DJ13B”
solr搜索时,用不分词的字段来搜 用field copy

*九阳豆浆机DJ13B*
2 楼 shoringchow 2015-04-27  
刚才的图没有弄好,如下索引中虽然有”九阳豆浆机DJ13B-D600SG“这个商品,但使用“豆浆机DJ13B”搜索的时候搜索不到,主要是因为IK分词分割拉丁字母和阿拉伯数字的时候会保留原字符串,我如何将原字符串剔除出分词后的结果中?谢谢!
1 楼 shoringchow 2015-04-27  
楼主你好,我也使用IK分词,但是目前遇到一个无解的问题,如下:
,索引中虽然有这个商品,但搜索的时候搜索不到,主要因为IK分词分割拉丁字母和阿拉伯数字的时候会保留原字符串,我如何将原字符串剔除出分词后的结果中?谢谢!

相关推荐

    IKAnalyzer2012FF_hf1.zip

    描述中提到的"FastDFS集群安装所需要的安装包"表明IKAnalyzer2012FF_hf1.zip可能与FastDFS系统的配置或集成有关。FastDFS是一个高性能、轻量级的分布式文件系统,特别适合于存储大量小文件,如图片、文档等。在...

    IK Analyzer 2012FF_hf1.7z

    总的来说,IK Analyzer 2012FF_hf1是专门为中文文本处理设计的分词工具,它的存在使得Solr等搜索引擎在处理中文数据时更加精准和高效。在使用时,用户可以根据项目需求,通过调整配置和定制插件,进一步优化其性能。

    IK Analyzer 2012FF_hf1及IK Analyzer 2012FF_hf1_source位于GOOGLE_CODE的资源转发

    2012FF_hf1 版本是IK Analyzer的一个特定版本,HF1代表Hot Fix 1,即该版本是对2012FF版本的小幅修正版。 IK Analyzer 2012FF_hf1 版本在原有的基础上进行了性能优化和错误修复,确保了其在处理中文文本时的准确性...

    solr分词 IKAnalyzer2012FF_hf1.rar

    "solr分词 IKAnalyzer2012FF_hf1.rar" 包含的是一个针对Solr优化的IK分词器版本,即IKAnalyzer2012FF_hf1。这个版本在原版IKAnalyzer的基础上进行了改进,提高了对中文词汇的处理能力,特别是对于复杂语境和新词识别...

    IK Analyzer 2012FF_hf1

    IK Analyzer 2012FF_hf1 包含两个主要的文件:`IK Analyzer 2012FF_hf1.zip` 和 `IK Analyzer 2012FF_hf1_source.rar`。`IK Analyzer 2012FF_hf1.zip` 很可能包含了IK Analyzer的编译版本,包括必要的jar文件,这些...

    IKAnalyzer2012FF_hf1-4.7.jar

    solr的lucene的新版本接口都进行了修改,除非修改实现不然就没法向下兼容,但是我们也有办法的,我们可以利用他的分词工具自己封装一个TokenizerFactory,通过实现最新的接口就可以让solr新版本用上ik了。

    IK Analyzer 2012FF_hf1.rar

    IK Analyzer是一款广泛...总之,IK Analyzer 2012FF_hf1是Solr进行中文处理的重要工具,它通过精细的分词策略和高度定制化的能力,显著提升了中文文本的索引和检索性能,是Java开发者处理中文信息时不可或缺的利器。

    IK Analyzer 2012FF_hf1.zip

    为了进一步了解IK Analyzer 2012FF_hf1的具体内容和使用方法,可以解压"IK Analyzer 2012FF_hf1.zip"文件,查看其中的文档、源码和示例。通常,压缩包内会包含以下内容: 1. **源代码**:展示了分词器的实现细节,...

    IKAnalyzer2012FF_u1.jar下载

    IKAnalyzer2012FF_u1.jar 是一款广泛应用于Java环境中的中文分词库,尤其在搜索引擎和文本分析领域有着重要的应用。这个jar包包含了IK Analyzer的最新版本,即2012FF_u1更新版,它是一款开源的、高性能的中文分词...

    IK 分词器 IK Analyzer 2012FF_hf1 Solr4

    在本案例中,我们关注的是"IK Analyzer 2012FF_hf1 Solr4"版本,这是针对Solr4.x版本优化的IK分词器的一个更新。 首先,"stopword.dic"是停用词词典,包含了常见的无意义词汇,如“的”、“是”、“在”等,这些...

    IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...

    ikanalyzer2012ff_u1

    在使用ikanalyzer2012ff_u1时,用户通常需要将其配置到Solr的schema.xml文件中,指定分词器的类名,如`&lt;analyzer type="index"&gt;`和`&lt;analyzer type="query"&gt;`部分。同时,还需要将提供的词典文件正确地部署到Solr的...

    中文分词器IK Analyzer 2012FF_hf1_Solr4.x.rar

    内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic

    IK Analyzer 2012FF_hf1.jar

    1. **下载并引入IK Analyzer**:首先需要将"IK Analyzer 2012FF_hf1.jar"文件放入Solr的lib目录下,以供Solr使用。 2. **配置schema.xml**:在Solr的conf目录下,修改schema.xml文件,为需要分词的字段指定`...

    IKAnalyzer2012FF_u1.jar同义词版本

    IKAnalyzer2012FF_u1.jar,同义词版本,本人亲测,木有问题,可以配置Solr的同义词,

Global site tag (gtag.js) - Google Analytics