`
litxuf
  • 浏览: 122458 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

solr 配置中文分词

 
阅读更多

    要在中文的项目中使用 Solr ,少不了要集成中文分词组件。本篇以 IK2012 分词为例,讲解如何在 solr 3.5 中及集成中文分词,使用 IK 的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易。

首先需要弄到 IKAnalyzer2012.jar ,可以从这里下载到

http://code.google.com/p/ik-analyzer/downloads/list

这里选择 IKAnalyzer2012_u5.zip 下载,下载后解压,将解压出来的 IKAnalyzer2012.jar 复制出来。在 D:\apache-solr-3.5.0\example\solr 下新建 lib 目录,将 IKAnalyzer2012.jar 放入 lib 下。打开 “D:\apache-solr-3.5.0\example\solr\conf\schema.xml” ,在 types 节点下 添加

 

<fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart ="false"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart ="false"/>
      </analyzer>
    </fieldType>
 

然后在 fields 节点下引用 text_zh 这一字段类型,如下所示:

 
<field name="title" type="text_zh" indexed="true" stored="true"/>

这样标题字段就支持中文分词了。

 

原文地址:http://www.solrcn.com/?tag=solr%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D

分享到:
评论

相关推荐

    solr 5.x 和 6.x 最新中文分词器

    二、Solr配置中文分词器 在Solr中使用中文分词器需要在配置文件中指定。通常在`schema.xml`或`managed-schema`中定义字段类型(FieldType),并设置对应的分词器。例如,使用IK Analyzer: ```xml ...

    Solr5.4中文分词

    在Solr 5.4版本中,对中文分词的支持是通过特定的分词器实现的。本文将详细介绍如何在Solr 5.4中配置中文分词库。 首先,"Solr5.4中文分词"这个标题表明我们关注的是针对Solr 5.4的一个特定分词解决方案。这通常...

    solr ik中文分词

    分词器在Solr中的主要作用是将用户输入的中文查询字符串分解成词语,然后Solr会根据这些词语来匹配索引中的文档,从而返回相关的搜索结果。IK Analyzer支持多种分词模式,如精确模式、全模式、最短路径模式等,可以...

    solr7.3.1中文分词器

    Solr是中国最流行的开源搜索引擎系统Lucene的一个...总的来说,这个压缩包提供了Solr 7.3.1处理中文内容所需的关键组件,包括IK分词器和mmseg4j,用户可以通过合理的配置和调优,实现高效且精准的中文全文检索功能。

    solr6.0中文分词

    Solr 6.0 中文分词是针对中文文本处理的重要功能,它是搜索引擎优化的关键环节。Solr 是一个流行的开源全文检索服务器,由...理解并掌握如何配置和使用分词器,可以极大地提升 Solr 系统在中文环境下的性能和用户体验。

    solr配置IK分词器Jar包和配置文件

    标题中的“solr配置IK分词器Jar包和配置文件”意味着我们需要将IK分词器的相关库文件(Jar包)添加到Solr的类路径中,并且对Solr的配置文件进行适当的修改,以便Solr知道如何使用这个分词器。 首先,你需要下载IK...

    solr(中文分词器)集群

    IK分词器(Intelligent Chinese Analyzer for Solr)是针对Solr优化的中文分词工具,它支持多种分词模式,包括精确模式、全模式、关键词模式等,以满足不同场景的需求。在Solr的`schema.xml`配置文件中,你可以指定...

    solr 3.4 中文分词配置问题

    这篇博客“solr 3.4 中文分词配置问题”很可能详细介绍了如何在Solr 3.4中为中文内容进行有效的分词处理。 首先,我们需要理解分词器的作用。分词器是将连续的文本分解成独立的词汇单元(如词语或短语)的工具,这...

    solr导入 IK分词

    IK分词器是针对中文自然语言处理的一种优秀工具,主要功能是对中文文本进行分词,将连续的汉字序列分解成具有语义的词语。它支持多种分词模式,包括精确模式、全模式、最细粒度模式等,满足不同场景的需求。IK分词器...

    solr5配置中文分词

    中文分词是Solr5处理中文文档的关键步骤,因为中文句子不像英文那样有明显的空格分隔单词,需要通过分词器来将连续的汉字序列切分成有意义的词汇单元。本篇文章将深入探讨在Solr5中配置中文分词的过程。 首先,我们...

    solr中文分词器

    总结来说,Solr中文分词器是实现高效中文搜索的关键,选择合适的分词器并进行合理配置,可以显著提升搜索质量和用户体验。开发者需要根据项目特点和需求,选择最适合的分词器,并不断优化,以达到最佳的分词效果。

    支持solr5.5 solr6.0中IK分词需要的资料

    - **版本兼容性**:确保IK分词器的版本与Solr版本匹配,避免出现不兼容的问题。 - **性能调优**:根据实际数据量和查询需求调整 IK 分词器的配置参数,如缓存大小、最大扩展词长度等。 - **分词结果的精度**:观察并...

    solr中文分词高版本

    "solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...

    IK分词solr5.0.0

    在Solr 5.0.0中使用IK分词器,可以显著提高中文文本的检索效果,通过智能分词和新词识别,使得用户输入的关键词能够更准确地匹配到文档中的内容。同时,通过调整分词器的配置,还能进一步优化搜索体验,满足不同的...

    Solr-ik分词

    Ik分词器是Solr中一个非常重要的组件,尤其对于中文处理,它是不可或缺的一部分。Ik分词器全称为Intelligent Chinese Analyzer,是由国内开发者基于Lucene开发的一款高性能的中文分词工具,专门针对中文的特性进行了...

    solr4.1+IK中文分词

    Solr4.1 + IK中文分词是针对Apache Solr搜索引擎的一个重要组合,它使得在中文环境下进行全文检索和分析变得更加高效和精确。Apache Solr是一个开源的企业级搜索平台,基于Lucene库,提供了高性能、可扩展的全文索引...

    solr 中文分词

    "solr 中文分词" 主要涉及的是 Solr 如何对中文文档进行有效的分词处理,以便于搜索和匹配。 1. **中文分词的重要性** 中文与英文不同,单词之间没有明显的分隔符,如空格。因此,为了准确地理解和检索中文内容,...

    solr ik分词器

    Solr是中国最流行的开源搜索引擎平台之一,而IK Analyzer是一款针对中文的高性能分词器,尤其在处理现代汉语的复杂情况时表现出色。本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是...

    solr 7.2.1IK分词jar包

    总的来说,"solr 7.2.1 IK分词jar包"是Solr中处理中文文本的关键组件,它的正确配置和使用对于提升中文搜索体验至关重要。通过理解IK分词器的工作原理和配置方法,我们可以更好地利用Solr进行中文信息检索和管理。

Global site tag (gtag.js) - Google Analytics