`

solrStudy-中文分词器

    博客分类:
  • solr
 
阅读更多
这里选择 IKAnalyzer2012_u5.zip 下载,下载后解压,将解压出来的 IKAnalyzer2012.jar 复制出来。在 D:\apache-solr-3.5.0\example\solr 下新建 lib 目录,将 IKAnalyzer2012.jar 放入 lib 下。打开 “D:\apache-solr-3.5.0\example\solr\conf\schema.xml” ,在 types 节点下 添加
<fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart ="false"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart ="false"/>
      </analyzer>
    </fieldType>

然后在 fields 节点下引用 text_zh 这一字段类型,如下所示:

1
 <field name="title" type="text_zh" indexed="true" stored="true"/>

这样标题字段就支持中文分词了。

 
<schema name="example" version="1.4">
<types>
<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
<fieldType name="tdate" class="solr.TrieDateField" omitNorms="true" precisionStep="6" positionIncrementGap="0"/>
<fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart="false"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart="false"/>
</analyzer>
</fieldType>
<fieldType name="url" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1"/>
</analyzer>
</fieldType>
</types>
<fields>
<field name="id" type="string" indexed="true" stored="true" required="true"/>
<field name="title" type="text_zh" indexed="true" stored="true"/>
<field name="description" type="text_zh" indexed="true" stored="true"/>
<field name="pubDate" type="tdate" indexed="true" stored="true"/>
<field name="link" type="url" indexed="true" stored="true"/>
</fields>
<uniqueKey>id</uniqueKey>
<defaultSearchField>title</defaultSearchField>
<solrQueryParser defaultOperator="OR"/>
</schema>
 
分享到:
评论

相关推荐

    基于java的开发源码-中文分词工具包 smallseg.zip

    基于java的开发源码-中文分词工具包 smallseg.zip 基于java的开发源码-中文分词工具包 smallseg.zip 基于java的开发源码-中文分词工具包 smallseg.zip 基于java的开发源码-中文分词工具包 smallseg.zip 基于java的...

    7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器

    elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...

    es-ik分词器7.4版本搭配apache的maven进行打包

    ES-IK分词器是针对Elasticsearch(简称ES)的中文分词插件,它为ES提供了强大的中文处理能力,能够有效地对中文文本进行分词,提升搜索引擎的索引和查询效率。7.4版本的IK分词器是针对ES 7.4版本设计的,它包含了一...

    elasticsearch7.6.1-ik分词器

    在中文环境中,为了实现精确的中文分词,我们需要使用适合中文的分词器。IK 分词器(Intelligent Chinese Analyzer for Elasticsearch)是针对 Elasticsearch 的一个强大、高效的中文分词插件,适用于各种复杂的中文...

    ElasticSearch7.3学习-中文分词器(IK Analyzer)及自定义词库

    ElasticSearch7.3学习-中文分词器(IK Analyzer)及自定义词库

    elasticsearch-pinyin分词器

    在处理中文文本时,通常需要借助特定的分词器来将汉字转化为可以被搜索的单元。"elasticsearch-pinyin分词器"正是这样一个工具,专为Elasticsearch设计,用于对中文文本进行拼音分词。 "pinyin分词器"是Elastic...

    elasticsearch-ik中文分词器7.6.2.zip

    **Elasticsearch 7.6.2 中文分词器详解** Elasticsearch 是一个流行的开源全文搜索引擎,它提供了一种高效、灵活的方式来存储、搜索和分析大量数据。在处理中文文档时,为了实现准确的搜索和匹配,我们需要使用特定...

    elasticsearch-analysis-ik-7.7.1 分词器下载

    在处理中文文本时,由于中文的特殊性(如词语边界不明显),需要借助特定的分词器来对文本进行预处理。"elasticsearch-analysis-ik"就是一款专为Elasticsearch设计的中文分词插件,其7.7.1版本是针对Elasticsearch ...

    ik-analyzer-8.3.0分词插件.zip

    中文分词是将连续的汉字序列切分成具有语义的独立单元(如词语)的过程。由于中文没有明显的词边界,这使得分词成为自然语言处理中的核心问题。ik-analyzer通过词典和动态算法相结合的方式,能够识别出各种复杂语境...

    elasticserach7.3.0-ik分词器-head-kibnan-serarch全部

    elasticserach7.3.0-ik分词器-head-kibnan-serarch全部包含了elasticsearc7.3.0、elasticsearch-ik分词器、kibnan和elasticsearch-head浏览器插件。全部将其放入到了elasticserach7.3.0-ik分词器-head-kibnan-...

    solr7.x-ik分词器亲测可用.zip

    "solr7.x-ik分词器亲测可用.zip" 文件是一个包含针对 Solr 7.x 版本优化的 IK 分词器的压缩包,IK(Intelligent Chinese Analyzer)是广泛使用的中文分词库,专为处理中文文本而设计。这个亲测可用的版本意味着已经...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    在自然语言处理领域,中文分词是至关重要的一步...总的来说,理解并选择合适的分词器对于提升中文文本处理的效率和准确性至关重要。通过比较和评估,我们可以找到最适合特定需求的工具,以优化自然语言处理任务的性能。

    elasticsearch-6.2.4-ik分词器

    IK (Intelligent Chinese Analyzer) 分词器是针对中文文本分析的插件,特别适合用于 Elasticsearch,为中文搜索提供了强大的支持。IK 分词器能够智能地分析中文词汇,根据上下文信息进行动态词典加载,支持自定义...

    适合Lucene5.x的IKAnalyzer-5.0分词器的jar包

    适合Lucene5.x的IKAnalyzer-5.0分词器的jar包,重写了前面版本的IKAnalyzer,我已经试过,可以使用。

    elasticsearch-analysis-ik-7.6.2分词器

    docker安装IK分词器版本

    Android-结巴分词的Android版本

    【Android-结巴分词的Android版本】是一个专门为Android平台设计的中文分词库,它是在Java版的jieba-analysis的基础上进行移植和优化的。jieba-analysis是一个非常流行的开源项目,用于实现高效的中文分词功能,广泛...

    elasticsearch-analysis-ik分词器-6.6.0 亲测可用.zip

    Elasticsearch 分词器是搜索引擎优化的关键组成部分,特别是在中文环境下,因为中文句子的断词对信息检索至关重要。"elasticsearch-analysis-ik" 是一个专为 Elasticsearch 设计的强大中文分词插件,它提供了灵活且...

    elasticsearch-analysis-ik-7.7.0分词器及安装步骤.rar

    Elasticsearch 分词器是搜索引擎优化的关键组成部分,它负责将输入的文本拆分成可搜索的词汇单元,这对于中文等复杂的语言尤为重要。`elasticsearch-analysis-ik` 是一个专门为 Elasticsearch 设计的高性能、高度可...

    solr-ik分词器资源(包括schema)

    solr-ik中文分词器资源包,包括ext.dic,,IKAnalyzer.cfg.xml,,ik-analyzer-solr5-5.x.jar,,managed-schema,,solr-analyzer-ik-5.1.0.jar,,stopword.dic

    基于Lucene 5.x版本的ik-analyzer分词器改造设计源码

    本项目为基于Lucene 5.x版本的ik-analyzer分词器的改造设计源码,包含36个文件,其中23个为Java源文件、10个词典文件、2个XML配置文件及1个Markdown文件。此次改造旨在使ik分词器更好地适应项目需求。

Global site tag (gtag.js) - Google Analytics