`

solr英文应用的基本分词器和过滤器配置

    博客分类:
  • Solr
阅读更多

英文应用分词器和过滤器一般配置顺序

  索引(index):

    1:空格 WhitespaceTokenizer
    2:过滤词(停用词,如:on、of、a、an等) StopFilter
    3:拆字WordDelimiterFilter
    4:小写过滤LowerCaseFilter
    5:英文相近词EnglishPorterFilter
    6:去除重复词RemoveDuplicatesTokenFilter

  查询(query):(首先也是加入分词方法)

    1:查询同义词 SynonymFilter
    2:过滤词 StopFilter
    3:拆字 WordDelimiter
    4:小写过滤 LowerCaseFilter
    5:英文相近词 EnglishPorterFilter
    6:去除重复词 RemoveDuplicatesTokenFilter

 

示例配置如下:

<fieldtype name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldtype>

 这样配置以后,字段类型为“text”的就会有以上的一些处理,如下,name就会有以上的处理了。

<field name="name" type="text" indexed="true" stored="true" multiValued="true"/>

 更多的过滤器配置可以参照solr wiki:http://wiki.apache.org/solr/FrontPage

 

分享到:
评论

相关推荐

    solr_solr_

    在这个"增加了分词器后的配置文件"中,我们可以预期看到一些关于分词器(Tokenizers)和过滤器(Filters)的配置,这些是Solr处理文本的关键组件。 分词器是将输入的文本分解成一系列独立的词语或标记的组件。例如...

    solr7 的 ik分词器

    在Solr7版本中,IK分词器进行了优化和升级,提供了更优秀的全文检索体验。 首先,我们来了解下什么是分词器。在自然语言处理中,分词是将连续的文本切分成有意义的词语单位,这是进行信息检索、文本挖掘等任务的...

    solr ik分词器

    -- 可以添加其他过滤器,如删除英文、数字等 --&gt; &lt;filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/&gt; &lt;!-- 同上,也可以添加其他查询分析器过滤器 --&gt; ``` 这里,...

    solr中文分词器

    Solr的核心功能是建立索引和执行查询,通过插件机制,可以灵活地扩展各种分析器和过滤器,以适应不同语言和应用场景的需求。 二、中文分词的重要性 中文分词是自然语言处理中的基础步骤,对于搜索引擎而言,正确的...

    solr cloud6.1.0拼音分词

    在Solr中,拼音分词主要依赖于特定的分析器和过滤器。这些组件在索引和查询阶段处理文本,将汉字转化为拼音,以便于匹配。例如,"北京大学"会被转化为"bei da xue jia"。Solr 提供了若干种实现这个功能的插件,如...

    solr6.0中IK分词需要的资料

    3. 在Solr的配置文件中,如`solrconfig.xml`,确保分词相关的过滤器和分析器已经正确配置。 4. 重启Solr服务,使配置生效。 5. 创建或者更新Solr的索引,让新的分词器对文本进行处理。 通过以上步骤,你就可以在...

    solr分词器

    Solr分词器是Apache Solr搜索引擎中的一个重要组件,它负责对输入的文本进行分词处理,以便于索引和查询。在理解Solr分词器之前,我们首先要明白Solr是一个开源的企业级搜索平台,它提供了高效、可扩展的全文检索、...

    solr5的ik中文分词器源码

    用户可以通过修改或添加词典文件来优化分词效果,也可以编写自定义的过滤器或扩展词典格式。源码中会有相关的接口和类供开发者参考。 7. **打包成JAR**: 解压后的源码需要通过Maven或其他构建工具(如Gradle)...

    solr7.x-ik分词器亲测可用.zip

    - 根据实际需求调整 IK 分词器的配置参数,如启用/禁用某些过滤器,设置自定义词汇表等。 **IK 分词器的特性** - 支持动态加载自定义扩展词典,便于进行个性化的分词处理。 - 内置了英文分词,对于混合中英文的...

    solr分词器使用手册

    #### 四、Solr分词器的配置 - **配置文件**:Solr的分词器配置通常位于每个Solr Core的`conf`目录下,主要通过`schem.xml`文件来进行配置。 - **示例**:例如,配置一个使用StandardTokenizerFactory的字段分词器。...

    Solr6.5 IK分词器

    文件`ikanalyzer-solr5`可能是一个包含IK分词器的Solr插件包,用于Solr 5版本,虽然与标题中的Solr 6.5不完全匹配,但在实际应用中,IK分词器的版本通常与Solr版本保持一致,以确保最佳兼容性和性能。如果需要在Solr...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    3. **扩展性**:除了基本的分词功能,Ik Analyzer还提供了诸如过滤、去停用词、词性标注等扩展插件,可以满足更复杂的文本处理需求。 4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    5. **API使用**:在Solr中集成mmseg4j,需要配置Solr的schema.xml和solrconfig.xml文件,设置分析器和过滤器链。同时,开发者可能需要了解mmseg4j提供的API,以便自定义分词规则或进行特殊需求的处理。 6. **性能...

    solr(ik分词器)需要的jar包

    Ik分词器(IK Analyzer)是一个专门为Java设计的中文分词库,广泛应用于Solr和Elasticsearch等搜索引擎中。 标题中的"solr(ik分词器)需要的jar包"指的是为了在Solr中使用IK分词器,我们需要下载并添加相应的Java ...

    k-analyzer-solr solr分词器

    在Solr中,分词器(Analyzer)和过滤器(Filter)共同作用于输入文本,完成诸如分词、去除停用词、词形还原等任务,以便提高搜索质量和效率。 **Solr分词器配置** 配置Solr分词器主要涉及以下几个步骤: 1. **...

    Solr java分词器

    2. 分词器(Tokenizer)、过滤器(Filter)和字符过滤器(CharFilter)的作用和工作流程。 3. 如何在Solr中配置和使用自定义分词器,如IK Analyzer。 4. 分词器的源码阅读和理解,以进行定制或优化。 5. 开发工具的...

    Solr分词项目工程实例

    总结,Solr分词项目工程实例涵盖了从配置分词器和过滤器到实际应用的过程,涉及到文档解析、分词、过滤等关键技术,通过"data"文件导入数据并建立索引,实现高效、精准的全文搜索。在实际操作中,开发者需要根据业务...

    solr IK分词需要的资料

    IK分词器提供了扩展接口,允许开发人员根据需求定制自己的过滤器或分词策略。 - **热更新** 使用IK分词器的热更新功能,可以在不重启Solr的情况下动态加载新词库,提高系统的灵活性。 总结来说,集成和使用IK...

    solr中文分词高版本

    "solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...

Global site tag (gtag.js) - Google Analytics