`
aswang
  • 浏览: 848147 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

solr 3.4配置中文分词IKAnalyzer3.2.8

 
阅读更多

最近在折腾solr,现在需要让其支持中文分词,在网上看到了很多关于使用paoding中文分词的文章,但是测试很久都不行,而且paoding这个分词工具很久没更新了,最新版本是paoding-analysis-2.0.4-beta.zip,于是在想有没有其它的分词工具可以使用,后来找到了IKAnalyzer,仔细看了下,感觉很不错,关键是配置很容易,参照一篇文章中的例子http://blog.sina.com.cn/s/blog_722364920100v80u.html(在这里非常感谢这位楼主的文章),就跑起来了。在这里特意把其中关键的部分记载下来。

 

1、下载IKAnalyzer,并将其放置到solr/WEB-INF/lib目录下

IKAnalyzer 下载地址:http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8%20bin.zip&can=2&q=

 

2、修改solr中conf目录中的schema.xml配置文件,添加如下内容:

 

 

<!-- IKAnalyzer3.2.8 中文分词-->
	<fieldType name="text" class="solr.TextField">
		<analyzer type="index">
			<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="false"/>
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
                <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
        <analyzer type="query">
			<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
                <filter class="solr.LowerCaseFilterFactory"/>
		</analyzer>   
    </fieldType>
 

如果采用上面的这种方式,那么相当于我们重新定义了一种fieldType,在后面的fields中需要把那些text_general修改为text,为了避免这种麻烦,我们可以修改原有的text_general类型:

找到fieldType name="text_general" ,修改其中的<tokenizer class="solr.StandardTokenizerFactory"/>为

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>

这样就不需要修改后面的配置了。

 

3、测试

在浏览器中打开http://127.0.0.1:8080/solr/admin/analysis.jsp

在Field中选择type,在后面的输入框中输入text

在Field Value(Index)中输入:solr 中使用IKAnalyzer 中文分词

在Filed Value(Query)中输入:中文分词

最后点击Analyze,就会看到测试结果:


 

 

 

  • 大小: 24.3 KB
4
0
分享到:
评论

相关推荐

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 是一个专门为Java开发的中文...总之,ikanalyzer-solr8.4.0 是 Solr 8.4.0 版本下用于中文分词的重要工具,通过合理的配置和使用,可以显著提高 Solr 对中文文本的处理能力,从而提升搜索质量和用户体验。

    solr 3.4 中文分词配置问题

    这篇博客“solr 3.4 中文分词配置问题”很可能详细介绍了如何在Solr 3.4中为中文内容进行有效的分词处理。 首先,我们需要理解分词器的作用。分词器是将连续的文本分解成独立的词汇单元(如词语或短语)的工具,这...

    IKAnalyzer3.2.8

    总之,IKAnalyzer3.2.8是一款强大的中文分词工具,它的出现极大地推动了中文信息处理技术的发展,为开发者提供了高效、便捷的中文分词解决方案。通过不断的优化和升级,IKAnalyzer将继续在中文信息处理领域发挥重要...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现对Solr索引的中文分词处理。 在实际应用中,Ik Analyzer的集成步骤大致如下: 1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,...

    solr分词 IKAnalyzer2012FF_hf1.rar

    "solr分词 IKAnalyzer2012FF_hf1.rar" 包含的是一个针对Solr优化的IK分词器版本,即IKAnalyzer2012FF_hf1。这个版本在原版IKAnalyzer的基础上进行了改进,提高了对中文词汇的处理能力,特别是对于复杂语境和新词识别...

    ik-analyzer-solr7.zip

    IKAnalyzer在Solr中的集成使得用户可以方便地在Solr中使用它进行中文文本的预处理,包括分词、去停用词等步骤,这对于提高搜索的准确性和效率至关重要。在Solr7.x版本中,IKAnalyzer可能已经针对该版本的特性和需求...

    solr 中文分词其IKAnalyzer 支持solr版本5.X-7.X

    描述中提到的"solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本"进一步证实了IKAnalyzer在Solr 7.2版本中的实际应用,这为其他用户提供了信心,确保了在不同Solr版本下的稳定运行。...

    solr6.x的IKAnalyzer配置智能分词

    Solr是Apache Lucene项目的一个开源搜索引擎服务器,它提供了全文检索、...总之,配置IKAnalyzer智能分词对于提升Solr在处理中文数据时的检索效果至关重要。理解并正确配置这些步骤,可以显著改善你的搜索引擎的性能。

    适应solr5.x的中文分词IKAnalyzer

    适应solr5.x的中文分词IKAnalyzer

    Solr安装与整合中文分词IKAnalyzer

    ### Solr安装与整合中文分词IKAnalyzer ...通过以上步骤,不仅完成了Solr的基本安装配置,还成功地集成了IKAnalyzer,实现了对中文文本的有效分词处理,这对于处理中文数据的全文检索应用来说非常重要。

    solr 6.4.1配置中文分词IK

    配置IK分词器是Solr用于处理中文的关键步骤,下面将详细介绍如何在Solr 6.4.1中配置IK分词器。 首先,你需要下载并解压提供的压缩包 "solr6.4.1 IK分词",其中可能包含了IK分词器的jar包以及相关的配置文件。这些...

    solr配置ikanalyzer分词文件以使用说明

    Solr是一款强大的全文搜索引擎,广泛...总的来说,正确配置ikanalyzer是提升Solr中文搜索性能的关键步骤。通过上述步骤,你应该能在Solr 6.0环境中成功使用ikanalyzer进行中文分词,为你的应用提供更精准的搜索体验。

    solr5.5.x的中文分词IKAnalyzer

    标题 "solr5.5.x的中文分词IKAnalyzer" 指的是在Apache Solr 5.5.x版本中使用IKAnalyzer进行中文文本的分词处理。Solr是一款流行的开源搜索服务器,它允许对大量数据进行高效、复杂的全文检索。而中文分词是中文文本...

    支持solr 5.3.0的IKAnalyzer中文分词器

    IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: &lt;fieldType name="text_ik" class=...

    solr4.X所用IKAnalyzer中文分词器jar包

    总的来说,IKAnalyzer中文分词器为Solr4.X提供了强大的中文处理能力,通过合理配置和使用,可以极大地提升中文搜索的质量和效率。在实际应用中,用户可以根据自身需求进行定制化配置,以满足特定场景的分词要求。

    支持solr5.5 solr6.0中IK分词需要的资料

    IK分词器(Intelligent Chinese Analyzer for Solr,简称IK)是一款针对中文的高效分词工具,专为Solr和Lucene设计,旨在提高中文文本检索的准确性。 标题和描述提到的是针对Solr 5.5和Solr 6.0版本的IK分词器支持...

    solr6的中文分词器ik-analyzer-solr-6.0.jar

    solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用

    solr中文分词器ik-analyzer-solr7.x

    **Solr中文分词器IK Analyzer** Solr作为一款强大的全文搜索引擎,对于中文处理有着特殊的需求,因为中文的语义分析比英文复杂得多。IK Analyzer是专门为了解决这个问题而设计的,它是一款开源的、高性能的、适用于...

    solr4.7+中文分词器IK Analyzer 2012FF_hf1

    IK Analyzer 2012FF_hf1 是一个针对中文的分词器,专为处理中文文本而设计,旨在提高中文文本的索引和搜索效率。这个组合在描述中提到已经过测试,证明它们可以协同工作,为中文搜索引擎应用提供有效的支持。 Solr ...

Global site tag (gtag.js) - Google Analytics