原创不易,转载请务必注明,原创地址,谢谢配合!
http://qindongliang.iteye.com/blog/2142783
对于中文的搜索来说,词库系统,也是一个比较重要的模块,本篇散仙以IK分词器为例子,介绍了如何让分词器从数据库或缓存系统中集中式加载词库?
Lucene和Solr从数据库加载词库分析
中文比较常用的分词库主要IK,ansj和messeg,下面针对IK来做分析,其他的几种分词器,都是大同小异的原理。
(一)词库介绍
不论使用什么类型的分词器,一般都少不了使用词库,而词库里面,除了主词库之外,还有扩展词库,同义词库,禁用词库等,其中扩展词库,同义词库,禁用词库是比较基础的词库,一般类型的业务开发,使用这3种词库后,基本能满足需求,特殊情况需要另外考虑。
(二)词库需求
每一个网站都需要有一个特定行业的词库,来丰富词库系统,当然你可以不用建立词库,这样的效果可能检索的时候,用户体验可能会比较查,在系统运行过程中,词库是可以动态更新的,所以要求我们的分词器,能够动态更新所有的词库,比如禁用词,同义词,扩展词等,这样做动态性比较好,但已经建好索引的文本,与目前的词库可能会存在一些误差,这种差别会在下一次重建索引时得到改变,所谓词库的动态更新,也就是在后台单独起个线程定时在内存里重新Load词库
(三)为什么需要从数据库或缓存加载词库?
在实际的开发中,搜索作为一个重要的组件,很少单独部署作为一个应用,除非是那种比较小的数据量,或者对搜索要求不是非常严格,通常在互联网或者电子商务行业,特别是电商行业,因为访问量比较大,对系统并发,负载均衡,响应请求要求比较高,所以搜索作为一个关键的应用通常需要采用集群的方式来构建一个高可用,高扩展的检索系统,在集群中,一般采用主从架构的方式,这样以来1主N从,需要有很多份词库文件,如果词库经常变化那么这种牵一发而动全身的趋势,就会变的很明显,解决办法主要有2种:
(1)在配置主从同步架构时,把,变化的词库放在Master上,然后同步的时候把词库的配置文件也同步过去。
(2)第二种就是今天主题所说,所有的词库文件都从某一个集中的地方管理,然后各个solr节点,定时从数据库,或缓存里读取并更新(在IK源码的Dictionary里进行更新)。
第一种方式的弊端在于,仅仅在solr的主从架构时,采用这种,会比较方便,如果是solrcloud的模式,这种方法就不适用了
第二种方式相对来说比较方便,整个集群只维持一份词库文件,改用较小,而且更好的办法我们可以结合本地词库+数据库的方式一起工作,这样以来当数据库出现宕机的时候,我们的词库仍能正常工作。
(四)使用流程简析
1,由于我们加入了同义词,所以需要定义一个IK的同义词工厂类IKSynonymFilterFactory继承TokenFilterFactory类并实现ResourceLoaderAware接口和Runnable接口,并重写create方法,在solr的里使用
2,我们定义一个ISSAnalyer类继承Analyzer,并重写必要方法,方便在控制台下测试。
3,定义一个IKTokenizerFactory类继承TokenizerFactory并实现ResourceLoaderAware接口,并重写inform方法和create方法,在solr里配置使用。
GitHub源码地址:
https://github.com/qindongliang/ikdicdatabase/tree/master/ikdic
原创不易,转载请务必注明,原创地址,谢谢配合!
http://qindongliang.iteye.com/blog/2142783
分享到:
相关推荐
IK分词器(Intelligent Chinese Analyzer for Solr,简称IK)是一款针对中文的高效分词工具,专为Solr和Lucene设计,旨在提高中文文本检索的准确性。 标题和描述提到的是针对Solr 5.5和Solr 6.0版本的IK分词器支持...
1. **Solr分词器**:Solr是Apache Lucene的一个分支,是一个流行的全文检索服务器。分词器是Solr中用于对输入文本进行分析的组件,它将文本分解成一系列可搜索的词或短语。分词的质量直接影响到搜索引擎的性能和准确...
IK Analyzer提供了动态加载和更新词库的功能,通过监听词库文件的变化,一旦检测到更新,即可立即应用,从而实现了“无需重启服务”的目标。 实现动态词库更新,主要涉及以下几个步骤: 1. **配置IK Analyzer**:...
IKAnalyzer 是一个专门为中文分词设计的开源分析器,它在 Lucene 和 Solr 中广泛使用,以提高中文文本检索的准确性和效率。这个压缩包 "ik-analyzer-solr5.4.0" 显然是针对 Lucene 5.4.0 和 Solr 5.4.0 版本优化的 ...
在 Solr 中,分词器(Tokenizer)和分析器(Analyzer)是构建高效搜索索引的关键组件。分词器将输入的文本拆分成一系列的词语,而分析器则包括了分词器和其他过滤器,如去停用词、词形还原等,以优化搜索效果。 ...
IK Analyzer是基于Java开发的,专门为Lucene和Solr设计的中文分词器。它的特点是具有较高的分词准确性和良好的性能。V2012是其早期的一个版本,尽管现在有更新的版本,但仍然有许多项目在使用这一经典版本。 **分词...
"solr分词 IKAnalyzer2012FF_hf1.rar" 包含的是一个针对Solr优化的IK分词器版本,即IKAnalyzer2012FF_hf1。这个版本在原版IKAnalyzer的基础上进行了改进,提高了对中文词汇的处理能力,特别是对于复杂语境和新词识别...
而IK分词器(Intelligent Chinese Analyzer for Solr)则是针对中文处理的一种强大工具,能够对中文文本进行精准的分词,提升搜索的准确性和效率。 在标题“solr-4.10.3+ik分词器”中,我们看到的是Solr的一个具体...
本篇文章将详细介绍如何在Solr中添加IK分词器以及引入Sougou词库,以提升中文分词的准确性和覆盖率。 首先,让我们来了解IK分词器。IK Analyzer是由Java编写的,专为中文处理设计的开源分词工具。它支持自定义扩展...
3. **Solr分词器**:Solr是Apache Lucene项目的一个子项目,是一个高性能的企业级搜索服务器。在Solr中,分词器是搜索引擎索引和查询过程中的关键组件。IK Analyzer与Solr结合使用,可以对输入的中文文本进行精确、...
在`solr-core.xml`或`solrconfig.xml`中,我们可以找到关于数据目录的配置,需要确保分词库能被正确地加载和使用。 具体步骤如下: 1. **下载分词库**:根据需求选择合适的中文分词库,如IK Analyzer,下载对应的...
这个文件需要被添加到Solr的lib目录下,以便Solr启动时可以加载这个分词器。 2. **配置文件**:IK分词器的配置文件通常包括`IKAnalyzer.cfg.xml`,这个文件用于设置分词器的行为,比如选择运行模式、启用扩展词典等...
使用IK分词器的热更新功能,可以在不重启Solr的情况下动态加载新词库,提高系统的灵活性。 总结来说,集成和使用IK分词器是提升Solr6.0中文搜索性能的关键步骤。正确配置并结合实际情况进行优化,能有效提升搜索...
"solr7.x-ik分词器亲测可用.zip" 文件是一个包含针对 Solr 7.x 版本优化的 IK 分词器的压缩包,IK(Intelligent Chinese Analyzer)是广泛使用的中文分词库,专为处理中文文本而设计。这个亲测可用的版本意味着已经...
5. **多版本支持**:IKAnalyzer有多个版本,适应不同的环境和需求,这里的"solr4.X所用分词器jar"指的是适用于Solr4.x版本的IKAnalyzer。 使用IKAnalyzer在Solr4.X中的步骤通常如下: 1. **下载和解压**:首先,你...
总的来说,MMseg4j中文分词词库是实现高质量中文分词的关键资源,它结合了搜狗词库的丰富词汇和MMseg4j的高效算法,为Lucene和Solr提供了强大的中文处理能力。正确地配置和使用词库,能够显著提升文本检索的准确性和...
5. **测试与优化**:通过Solr的分析器接口测试分词效果,根据需求调整分词器参数,如停用词表、扩展词库等。 6. **使用索引与查询**:现在,Solr已经具备了使用IKAnalyzer进行中文分词的能力,可以对输入的中文文本...
本教程将详细讲解如何搭建Solr,并涵盖拼音检索、三种主流分词器(smartcn、IK、mmseg4j)的配置以及停词器和扩展词库的使用。 首先,我们需要下载并安装Solr。通常,Solr的官方下载页面会提供最新版本的Solr压缩包...
注意,分词器的选择和配置可以根据实际需求调整,比如选择其他版本的IK Analyzer或者其他的中文分词库,如jieba分词等。 总之,配置Solr5的中文分词涉及到对分词器的选取、库的添加、`schema.xml`的修改等多个环节...
Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而Paoding则是一款专门针对中文的高性能分词工具,能准确地对中文文本进行切词,提升搜索的精确度。 首先,Apache Solr 3.2是Solr的一个...