`
qindongliang1922
  • 浏览: 2188650 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117663
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126071
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60031
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71399
社区版块
存档分类
最新评论

solr4.3之配置中文分词smartcn

    博客分类:
  • Solr
阅读更多

solr4.3默认的分词器是一元分词器,这个本来就是对英文进行分词的,英文大部分就是典型的根据空格进行分词,而中文如果按照这个规则,那么显然是要有很多的冗余词被分出来,一些没有用的虚词,数词,都会被分出来,影响效率不说,关键是分词效果不好,所以可以利用solr的同步发行包smartcn进行中文切词,smartcn的分词准确率不错,但就是不能自己定义新的词库,不过smartcn是跟solr同步的,所以不需要额外的下载,只需在solr的例子中拷贝进去即可,下面给出路径图和安装solr4.3的smartcn分词过程
无论安装那种分词器,大部分都有2个步骤,第一步是拷贝jar包到solr的lib中



C:\桌面\solr-4.3.0\contrib\analysis-extras\lucene-libs
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
smartcn的同步发行包:lucene-analyzers-smartcn-4.3.0.jar



这个弄好之后,就需要在schemal.xml文件中,注册分词器了



<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
       <!-- 此处需要配置主要的分词类 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
		<!--  
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
		<filter class="solr.LowerCaseFilterFactory"/> 
		-->
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
      -->
        
		<filter class="solr.SmartChineseWordTokenFilterFactory"/>
		  
      </analyzer>
      <analyzer type="query">
      <!-- 此处配置同上 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
			<!-- 
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
		-->
		<filter class="solr.SmartChineseWordTokenFilterFactory"/>
		 
      </analyzer>
    </fieldType>





最后在引用一下字段类型就可以了


<field name="sma" type="text_smart" indexed="true" stored="true" multiValued="true"/>



访问http://localhost:8080/solr/#/collection1点击分词分析即可查看分词效果




分享到:
评论

相关推荐

    solr4.3的IK分词器

    最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题

    Solr4.3 版本中文分词组件

    最高版本的 solr 中文分词配置 , 小弟已经测试过了 里面的 jar 要到各官网上下载

    solr4.3源代码一

    Solr4.3是Apache Solr的一个早期版本,它是一个基于Lucene的全文搜索服务器,提供了高可配置、可扩展的搜索和分析功能。Solr4.3源代码的获取通常是为了深入理解其内部工作原理,进行定制开发或优化。在你提供的信息...

    solr4.3源代码二

    在你提供的资料中,"solr4.3源代码二"显然是Solr 4.3版本的源代码包,这将包含Solr的核心组件和相关配置。通过SVN下载的源代码表明,你可以追踪代码的历史版本,这对于理解和解决潜在问题非常有帮助。 首先,我们来...

    solr4.3-ik-analyzer

    solr4.3 分词器 把IKAnalyzer.jar放到solr\WEB-INF\lib下。

    solr5配置中文分词

    中文分词是Solr5处理中文文档的关键步骤,因为中文句子不像英文那样有明显的空格分隔单词,需要通过分词器来将连续的汉字序列切分成有意义的词汇单元。本篇文章将深入探讨在Solr5中配置中文分词的过程。 首先,我们...

    ik-analyzer-5.01-for solr4.3.jar

    ik-analyzer-5.01-for solr4.3.jar

    solr4.1+IK中文分词

    Solr4.1 + IK中文分词是针对Apache Solr搜索引擎的一个重要组合,它使得在中文环境下进行全文检索和分析变得更加高效和精确。Apache Solr是一个开源的企业级搜索平台,基于Lucene库,提供了高性能、可扩展的全文索引...

    跟益达学Solr5之使用IK分词器

    本篇将围绕“跟益达学Solr5之使用IK分词器”这一主题,详细讲解如何在Solr5中集成并运用IK分词器,以及它的工作原理和优化技巧。 首先,让我们了解下什么是分词器。在中文搜索引擎中,由于中文句子没有明显的分隔符...

    solr5的ik中文分词器源码

    在处理中文文本时,一个关键的组件就是中文分词器,而IK(Intelligent Chinese)分词器是Solr中常用的中文分词工具之一。本文将深入探讨"solr5的ik中文分词器源码"的相关知识点。 1. **IK分词器概述**: IK分词器...

    Solr5.4中文分词

    在Solr 5.4版本中,对中文分词的支持是通过特定的分词器实现的。本文将详细介绍如何在Solr 5.4中配置中文分词库。 首先,"Solr5.4中文分词"这个标题表明我们关注的是针对Solr 5.4的一个特定分词解决方案。这通常...

    Solr5.5搜索引擎之分词原理说明.docx

    Solr5.5 搜索引擎之分词原理说明 Solr5.5 搜索引擎之分词原理说明是指 Solr5.5 搜索引擎内部使用的分词原理,旨在帮助开发者自定义自己的分词器时掌握分词的基础知识。 1. 中文分词 中文分词是指将中文汉字序列切...

    ik4solr4.3:ik分词器for Solr4.3,支持4.4,二进制不用修改也支持4.6,不放心可以改下POM中的依赖

    solr4.3的ik分词器(改了一些smart分词算法。使用maven编译),隔壁有我写的包 支持从solr自己的环境中获取自定义词典(使用solr的ResourceLoader,只需要把字典文件放到对应索引的conf目录里) 增加一个定时更新类...

    IK分词solr5.0.0

    首先,IK分词器全称为“Intelligent Chinese Analyzer for Solr”,由北京大学的开源社区开发,旨在提供对中文文本更精确的分词处理。IK分词器有两个主要版本:标准版和智能版。标准版支持基本的分词功能,而智能版...

    solr 6.4.1配置中文分词IK

    配置IK分词器是Solr用于处理中文的关键步骤,下面将详细介绍如何在Solr 6.4.1中配置IK分词器。 首先,你需要下载并解压提供的压缩包 "solr6.4.1 IK分词",其中可能包含了IK分词器的jar包以及相关的配置文件。这些...

    solr IKAnalyzer 搜索中文分词配置 过程

    NULL 博文链接:https://jsxzzliang.iteye.com/blog/852460

    solr配置IK分词器Jar包和配置文件

    现在,Solr就配置好了IK分词器,可以对中文内容进行更准确的分词和搜索。 除了基本的配置,你还可以根据需求调整IK分词器的其他参数,比如停用词表、扩展词汇表等,以优化分词效果。停用词表可以排除常见无意义的...

    solr-4.10.3+ik分词器

    在标题“solr-4.10.3+ik分词器”中,我们看到的是Solr的一个具体版本——4.10.3,以及与之配合使用的IK分词器。这个版本的Solr包含了多项优化和改进,例如更稳定的性能、增强的搜索特性以及对各种数据源的更好支持。...

Global site tag (gtag.js) - Google Analytics