`
LoveLZY
  • 浏览: 57488 次
  • 性别: Icon_minigender_1
博客专栏
Group-logo
从零编写RPC框架
浏览量:0
社区版块
存档分类
最新评论

solr中文分词

阅读更多
  solr中文分词。
   solr5.0 自带一个中文分词包,lucene-analyzers-smartcn-5.0.0.jar。 在安装目录下搜寻找到,并copy到solr提供的web服务目录的lib目录下。
  修改collection配置里面的schema.xml。新增字段类型。
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">  
      <analyzer type="index">  
       <!-- 此处需要配置主要的分词类 -->  
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>  
        <filter class="solr.SmartChineseWordTokenFilterFactory"/>  
      </analyzer>  
      <analyzer type="query">  
      <!-- 此处配置同上 -->  
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>  
        <filter class="solr.SmartChineseWordTokenFilterFactory"/>  
      </analyzer>  
    </fieldType>  



   启动solr cloud服务,新建collection就好。
 
分享到:
评论

相关推荐

    solr中文分词器

    Solr中文分词器是针对Apache Solr全文检索引擎在处理中文文本时的不足而设计的一种解决方案。Solr默认的分词策略主要针对英文文本,它以空格为分隔符进行分词,而对于中文这种没有明显分隔符的语言,就需要特定的...

    solr 中文分词

    因此,为了准确地理解和检索中文内容,我们需要进行分词,将连续的汉字序列切割成具有独立意义的词汇。这有助于提高搜索结果的相关性和精度。 2. **Solr 的分词器** Solr 内置了多种分词器,包括 ...

    solr中文分词高版本

    "solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    Ik Analyzer是一款针对Java平台设计的、专门用于中文分词的开源工具,它在Solr中扮演着至关重要的角色。 标题提到的"ik-analyzer 7.5.0"是Ik Analyzer的一个特定版本,这个版本包含了对Solr的支持,并且提供了类...

    ikanalyzer-solr中文分词包兼容solr7.5

    ikanalyzer-solr中文分词包是专门为Apache Solr设计的一款强大的中文分词工具,它在处理中文文本时能够有效地进行词语切分,提高搜索准确性和效率。标题中提到的"ikanalyzer-solr中文分词包兼容solr7.5"意味着这个...

    solr 中文分词其IKAnalyzer 支持solr版本5.X-7.X

    描述中提到的"solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本"进一步证实了IKAnalyzer在Solr 7.2版本中的实际应用,这为其他用户提供了信心,确保了在不同Solr版本下的稳定运行。...

    solr中文分词器ik-analyzer-solr7.x

    **Solr中文分词器IK Analyzer** Solr作为一款强大的全文搜索引擎,对于中文处理有着特殊的需求,因为中文的语义分析比英文复杂得多。IK Analyzer是专门为了解决这个问题而设计的,它是一款开源的、高性能的、适用于...

    solr ik分词器

    Solr是中国最流行的开源搜索引擎平台之一,而IK Analyzer是一款针对中文的高性能分词器,尤其在处理现代汉语的复杂情况时表现出色。本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是...

    solr中文分词器文件及配置.zip

    solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...

    solr 5.x 和 6.x 最新中文分词器

    一、Solr中文分词器概述 在处理中文文档时,由于中文句子没有明显的分隔符,如英文的空格,因此需要使用分词器进行预处理。Solr支持多种中文分词器,如IK Analyzer、Smart Chinese Analyzer、Paoding Analyzer等,...

    solr中文分词器技术

    中文分词技术(中文分词原理)词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的...

    lucene、solr中文分词器

    这些分词器专门针对中文的特点进行了优化,能够准确地将连续的汉字序列切分成具有实际意义的词语,这一过程称为中文分词。 ikanalyzer和IK Analyzer是基于字典的分词器,它们维护了大规模的中文词汇库,通过查找...

    solr ik中文分词

    在处理中文文本时,由于中文的特殊性(词与词之间没有明显的分隔符),需要使用专门的分词器进行预处理,将连续的汉字流分割成有意义的词语,这个过程称为中文分词。IK Analyzer(简称IK)就是为了解决这个问题而...

    solr(中文分词器)集群

    IK分词器(Intelligent Chinese Analyzer for Solr)是针对Solr优化的中文分词工具,它支持多种分词模式,包括精确模式、全模式、关键词模式等,以满足不同场景的需求。在Solr的`schema.xml`配置文件中,你可以指定...

    solr中文分词jar以及配置

    Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一...

    solr7.3.1中文分词器

    描述中提到的"solr7.3.1种需要的中文IK分词器",IK(Intelligent Chinese Analyzer)分词器是一个强大的、成熟的中文分词组件,广泛应用于各种Java开发的搜索系统中。IK分词器支持多种分词模式,包括精确模式、全...

    solr分词器

    在Solr中,有多种内置的分词器可供选择,如StandardTokenizer(标准分词器)和IK Analyzer(智能中文分词器)。以IK Analyzer为例,它是专门为中文设计的分词器,能够处理复杂的中文词汇切分问题。IK Analyzer支持...

    Solr5.5搜索引擎之分词原理说明.docx

    中文分词是指将中文汉字序列切分成有意义的词的过程。中文分词是自然语言处理技术中的一部分,许多西文处理方法对中文不能直接采用,因为中文必须有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是...

Global site tag (gtag.js) - Google Analytics