`

solr(五)同义词加中文分词

 
阅读更多

            同义词加中文分词的话可以采用mmseg4j,mmseg4j的配置步骤如下:

           1: 下载地址:

           http://code.google.com/p/mmseg4j/downloads/list.
           2.解压mmseg4j-1.9.0.v20120712-SNAPSHOT.zip
           用到下面文件:
               mmseg4j-all-1.9.0.v20120712-SNAPSHOT.jar 放到之前安装$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
                data 目录,建议拷贝下面内容到$SOLR_HOME\collection1\conf\mm4jdic
          3.设置mmseg4j中文分词和同义词
           修改$SOLR_HOME/collection1/conf/schema.xml,在<types></types>中增加如下内容:

          

<fieldType name="textMaxWord" class="solr.TextField" >
  <analyzer type="index">
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/>
	<filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/>
	<filter class="solr.StandardFilterFactory"/>
	<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
  </analyzer>
  <analyzer type="query">
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/>
	<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
	<filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/>
	<filter class="solr.StandardFilterFactory"/>
	<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
  </analyzer>
</fieldType>

    同样要定义相关类型的字段

 

<field name="title_copy" type="textMaxWord" indexed="true" stored="true" termVectors="true"/>

 4: 导入数据库索引,这个可以参看dataImport,至于synonyms的配置可以参看上一贴没做改动。

 测试输入日本,结果显示了都是相关中国的内容,基本达到了同义词的效果。

 



 

  • 大小: 38.8 KB
分享到:
评论

相关推荐

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 提供了丰富的扩展性,用户可以根据自己的需求定制词典,支持自定义停用词、同义词等,以满足不同场景的分词需求。同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词...

    solr中文分词器

    Solr中文分词器是Apache Solr搜索引擎系统中用于处理中文文本的核心组件,它使得Solr能够对中文文档进行有效的索引和搜索。在Solr中,分词器(Tokenizer)是分析器(Analyzer)的一部分,负责将输入的文本拆分成可被...

    solr6.x_IK中文分词工具

    中文分词是将连续的汉字序列切分成具有语义的词汇单元的过程,因为中文没有像英文那样的自然分隔符(如空格),所以分词是中文信息处理的基础步骤。准确的分词能够提升搜索结果的相关性和准确性。 IK中文分词工具...

    支持Spring-data-solr1.5的ik分词器,同义词

    支持Spring-data-solr1.5的ik分词器,并且修改了代码,添加一个新的类,用于支持同义词,目前可以同时支持分词和同义词的功能。 修改 managed-schema,添加 &lt;fieldType name="text_lk" class="solr.TextField"&gt; ...

    solr 5.0搭建 和使用 ik分词

    本篇文章将详细讲解如何搭建Solr 5.0,并使用IK分词器进行中文分词处理,提升搜索效果。 首先,我们需要下载Solr 5.0的安装包。你可以访问Apache官方站点或者镜像站点获取最新版本的Solr。解压缩下载的文件后,你会...

    solr分词器使用手册

    在查询时,除了相同的分词及过滤过程外,还会额外使用SynonymFilterFactory来处理同义词。 #### 五、Solr安装与配置 - **下载与安装**: - **下载地址**:官方下载地址为http://lucene.apache.org/solr/。 - **...

    solr 7.2.1IK分词jar包

    同时,通过调整分词策略,还可以实现同义词扩展、词语关系挖掘等高级功能。 总的来说,"solr 7.2.1 IK分词jar包"是Solr中处理中文文本的关键组件,它的正确配置和使用对于提升中文搜索体验至关重要。通过理解IK分词...

    配置好的solr启动环境

    关于标签,我们看到“同义词”、“增量创建索引”、“创建索引”和“中文分词”。这些是Solr在实际应用中涉及的重要概念: 1. **同义词**:在Solr中,可以使用Solr的同义词扩展来处理词汇的同义关系。例如,"车"和...

    Solr分词项目工程实例

    4. 高级分词处理:例如短语分析、同义词扩展等,这可以通过自定义分词组件实现。 二、Solr分词器与过滤器 Solr内置了多种分词器和过滤器,例如: 1. StandardTokenizer:标准分词器,遵循HTML和XML规范,处理常见...

    IKAnalyzer分词及solr4103配置说明

    同义词库通常是一个文本文件,包含多对同义词,IKAnalyzer在分词过程中会识别并处理这些同义词,使得搜索时能够匹配到更多相关的结果。 **Solr配置步骤** 1. **下载与安装**:首先,你需要下载Apache Solr的对应...

    solr6.0中IK分词需要的资料

    Solr 6.0 是一个强大的全文搜索引擎,它允许开发者对海量数据进行高效、精确的检索。...在实际应用中,根据具体的业务场景,可能还需要结合其他技术,如停用词过滤、同义词扩展等,以进一步提升搜索体验。

    魂动罗java源码-jcseg:一个开源的分词器,增加同义词优化

    jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.x和最高版本solr-4.x的分词接口. 1。目前最高版本:jcseg-1.9.2。兼容最高版本lucene-4.x和最高版本solr-4.x 2...

    solr中文解析器以及使用文档

    5. **停用词和同义词处理**:IK Analyzer还支持停用词(如“的”、“和”等常见无意义词汇)过滤和同义词扩展,以提高搜索结果的相关性。 6. **优化性能**:在高并发环境下,IK Analyzer的性能优化很重要。这可能...

    jcseg,Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene, solr, elasticsearch 的分词接口!.zip

    Jcseg是基于 mmseg 算法的一个轻量级中文分词器,...Jcseg自带了一个 jcseg.properties 文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!

    IK中文分词器

    IKAnalyzer,作为一款高效、易用的中文分词组件,能够有效地将连续的汉字序列切分成具有语义的词汇单元,提升搜索结果的相关性和准确性。 **IKAnalyzer的特性与优势:** 1. **灵活定制**:IKAnalyzer支持自定义词典...

    solr6 IK资源包

    5. **智能分析**:除了基本的分词功能,IK还具备了同义词扩展、英文单词识别、数字识别等智能分析能力,提升了分词效果。 在Solr 6中集成IK分词器,可以显著提升中文文档的检索性能和准确性。Solr是一个开源的企业...

    分词器6659282.zip

    过滤器可以进一步修改分词器产生的结果,比如去除数字、标点符号,或者执行同义词替换。查询分析器则负责处理用户的查询字符串,确保它们与索引中的分词保持一致。 总结来说,"分词器6659282.zip"是一个与Solr搜索...

    solr-7.7.2+ik-analyzer-solr7x.zip

    4. **扩展性**:Ik Analyzer提供了一些插件接口,方便开发者根据需求进行扩展,例如停用词过滤、同义词扩展等。 5. **兼容性**:Ik Analyzer与多个版本的Solr和Lucene兼容,包括在这个压缩包中的Solr 7.x版本。 将...

    Solr In Action 中文版 第六章

    - **同义词联想**:通过关联一组具有相似意义的词汇,可以提高搜索的覆盖范围。 - **语义转换**:将文本转换为其语义等价形式,例如将“buying”转换为“purchasing”。 #### 四、文本分析实战:分析微博文本 以...

Global site tag (gtag.js) - Google Analytics