IKAnalyer3.2.8 下载
http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8%20bin.zip&can=2&q=
1.2 IK 分词器的安装 IKAnalyer3.2.8 下载
将IKAnalyzer3.2.5发行包解压,复制IKAnalyzer3.2.8Stable.jar到Solr的lib中,如/tomcat/webapps/solr/WEB-INF/lib,(如果用的是solr自带的example应用,则将该jar包放在\apache-solr-3.6.0\example\work\Jetty_0_0_0_0_8983_solr.war__solr__k1kf17\webapp\solr\WEB-INF\lib 目录下,因为work是solr自带的web应用文件存放的本地目录)
复制配置文件IKAnalyzer.cfg.xml和ext_stopword.dic到tomcat/bin中(如果用的是solr自带的example应用,可以不放这两个配置文件),如/home/tomcat/bin,同样,把这两个文件也放到/tomcat/webapps/solr/WEB-INF/lib 中;
打开solr本地应用文件夹,打开/solr/conf/scheme.xml,编辑text字段类型如下,添加到schema中
Xml代码
<fieldType name="text" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>
或者是
<fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart="false"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart="false"/> </analyzer> </fieldType>
如果需要检索某个域,还需要在scheme.xml下面的field中,添加指定的域,用text_zh来作为type的名字,来完成中文切词。
如 title要是实现中文检索的话,就要做如下的配置:
<field name="title" type="text_zh" indexed="true" stored="true" multiValued="true"/>
但是目前用到的都是原来xml自带的field名字,如果添加新的field,在把xml添加到索引文件时会出现不认识新加字段的问题,目前没不知道原因,估计除了需要在schema.xml里配置,还需要在其他地方做配置才行。有待于继续发掘。
2 优化
配置solrconfig.xml,用来配置Solr的一些系统属性,比较重要的一个就是可以通过更改其中的dataDir属性来指定索引文件的存放 位置,对于有大数据量的情况下还要进行自动commit操作配置,以下设置为当内存索引量达到20W条时自动进行往磁盘写操作,以免堆溢出,这也是解决单 个入库xml文件最好不要超过30M的有效方法:
Xml代码
<autocommit> <maxdocs>200000</maxdocs> </autocommit>
3:验证
Solr在 Tomcat里,所以启动Tomcat即可,建议初期用bootstrap.jar,方便发现配置中的错误,如
进入目录/home/tomcat/bin ,然后敲入 java -jar bootstrap.jar即可运行,不报错的话就可以正常访问了
http://127.0.0.1:8983/solr/ 或者http://localhost:8983/solr/admin/
[Solr分词顺序]
Solr建立索引和对关键词进行查询都得对字串进行分词,在向索引库中添加全文检索类型的索引的时候,Solr会首先用空格进行分词,然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下:
索引
1:空格whitespaceTokenize
2:过滤词StopFilter
3:拆字WordDelimiterFilter
4:小写过滤LowerCaseFilter
5:英文相近词EnglishPorterFilter
6:去除重复词RemoveDuplicatesTokenFilter
相关推荐
Solr中文分词器是针对Apache Solr全文检索引擎在处理中文文本时的不足而设计的一种解决方案。Solr默认的分词策略主要针对英文文本,它以空格为分隔符进行分词,而对于中文这种没有明显分隔符的语言,就需要特定的...
"solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...
为了实现中文分词,通常需要使用第三方分词库,如IK Analyzer、SmartChineseAnalyzer、HanLP、jieba分词等。 3. **IK Analyzer** 提到的 "IKAnalyzer-master" 文件名表明我们可能正在使用 IK Analyzer,这是一个...
4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现对Solr索引的中文分词处理。 在实际应用中,Ik Analyzer的集成步骤大致如下: 1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,...
总的来说,这个压缩包提供了一整套的中文分词解决方案,包括了分词器本身、使用手册、分词库以及辅助工具,帮助用户在Solr环境中实现高效、精准的中文全文检索。对于需要处理大量中文数据的项目,这是一个非常有价值...
Solr是中国最流行的开源搜索引擎系统Lucene的一个...总的来说,这个压缩包提供了Solr 7.3.1处理中文内容所需的关键组件,包括IK分词器和mmseg4j,用户可以通过合理的配置和调优,实现高效且精准的中文全文检索功能。
一、Solr中文分词器概述 在处理中文文档时,由于中文句子没有明显的分隔符,如英文的空格,因此需要使用分词器进行预处理。Solr支持多种中文分词器,如IK Analyzer、Smart Chinese Analyzer、Paoding Analyzer等,...
**Solr中文分词器IK Analyzer** Solr作为一款强大的全文搜索引擎,对于中文处理有着特殊的需求,因为中文的语义分析比英文复杂得多。IK Analyzer是专门为了解决这个问题而设计的,它是一款开源的、高性能的、适用于...
在Solr中,有多种内置的分词器可供选择,如StandardTokenizer(标准分词器)和IK Analyzer(智能中文分词器)。以IK Analyzer为例,它是专门为中文设计的分词器,能够处理复杂的中文词汇切分问题。IK Analyzer支持...
IK分词器(Intelligent Chinese Analyzer for Solr)是针对Solr优化的中文分词工具,它支持多种分词模式,包括精确模式、全模式、关键词模式等,以满足不同场景的需求。在Solr的`schema.xml`配置文件中,你可以指定...
在处理中文文本时,分词器起着至关重要的作用,因为它将连续的汉字序列分解为有意义的词语,便于搜索和分析。"Solr6.3 IK分词器"就是这样一个工具,专为处理中文文本而设计,它被集成到Solr中以优化对中文内容的处理...
拼音分词是处理中文文本的一种策略,它将汉字转换为其对应的拼音,从而允许用户通过输入拼音来搜索相关的中文内容。 在Solr中,拼音分词主要依赖于特定的分析器和过滤器。这些组件在索引和查询阶段处理文本,将汉字...
总之,为了在Lucene和Solr中实现有效的中文全文搜索,选用合适的中文分词器至关重要。这些分词器不仅解决了Lucene默认分词器对中文处理的不足,而且通过提供更准确的分词结果,极大地提升了中文搜索的精度和用户体验...
在Solr 5.4版本中,对中文分词的支持是通过特定的分词器实现的。本文将详细介绍如何在Solr 5.4中配置中文分词库。 首先,"Solr5.4中文分词"这个标题表明我们关注的是针对Solr 5.4的一个特定分词解决方案。这通常...
通过理解中文分词的基本原理和技术,可以帮助开发者更好地设计和实现高效的中文信息处理系统。无论是传统的基于词典的分词方法,还是新兴的统计分词、深度学习分词等技术,都在不断地推动着中文自然语言处理领域的...
"k-analyzer-solr" 是一个特定的分词器实现,用于优化Solr的文本处理流程。在Solr中,分词器(Analyzer)和过滤器(Filter)共同作用于输入文本,完成诸如分词、去除停用词、词形还原等任务,以便提高搜索质量和效率...
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一...
标题中的“Solr java分词器”指的是Apache Solr中使用的Java实现的分词工具,主要负责对输入的文本进行词汇分析,以便于索引和搜索。Solr是一款基于Lucene的开源搜索引擎,它提供了更高级别的API和配置选项,包括...
在本文档中,我们将详细介绍如何搭建Solr 5.3.1搜索引擎,并集成MySQL数据库,以及如何实现中文分词、同义词支持等功能。 **1. 下载并解压Solr** 首先,需要从官方网站下载Solr 5.3.1版本的安装包,并将其解压缩至...