`

solr同义词的配置

    博客分类:
  • solr
阅读更多
格式编码为UTF-8
注:如下是基于solr-5.3.1进行的配置
schema.xml配置和同义词词库的配置
中文,这里采用mmseg4j作为分词器,同义词一般只要进行查询的配置就可以了,同义词的配置一般位于分词器的后面
下面是中文的同义词和分词的配置
     <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
                <analyzer type="index">
                        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="my-ext-dic" />
                        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                        <filter class="solr.LowerCaseFilterFactory"/>
                </analyzer>
                <analyzer type="query">
                        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="my-ext-dic" />
                        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
                        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                        <filter class="solr.LowerCaseFilterFactory"/>
                </analyzer>
        </fieldType>
如果是英文,大体同上面的配置,主要区别是分词器的选择
下面是英文的分词器和同义词的配置
    <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
                <analyzer type="index">
                        <tokenizer class="solr.StandardTokenizerFactory"/>
                        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                        <filter class="solr.LowerCaseFilterFactory"/>
                </analyzer>
                <analyzer type="query">
                        <tokenizer class="solr.StandardTokenizerFactory"/>
                        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
                        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                        <filter class="solr.LowerCaseFilterFactory"/>
                </analyzer>
        </fieldType>
词库目录的位置
分词词库是首先取的core或者collection的实例目录
单节点:
E:\BaiduYunDownload\solr\solrLocal\solr-5.3.1\server\solr\testCollection












参数1:synonyms:指向同义词库
ignoreCase:是否区分大小写,默认为false
expand:默认是true,决定是否扩充到所有同意义的,相同的同义词,  如果为false,则只有列表中的第一个生效
format:默认是solr,控制同义词怎样被解析,目前solr(SolrSynonymParser)和wordnet(WordnetSynonymParser),是被支持的,或者你也可以定义一个支持你自己的SynonymMap.Buider的子类的名字
analyzer:可选的,默认是WhitespaceTokenizerFactory

data/chars.dic是单字与语料中的频率,一般不用改动,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可能覆盖它。
data/units.dic是单字的单位,默认读jar包里的,你可以自定义覆盖它。
data/words.dic是词库文件,一行一词,当然你也可以使用自己的
data/wordsxxx.dic   目前应该支持多个词库文件,data目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如data/words-my.dic

注:solr-5.5.0中,同义词库的配置需要配置绝对路径,如果要使用相对路径,需要通过修改分词源码
  • 大小: 51.8 KB
  • 大小: 55.9 KB
  • 大小: 53.3 KB
  • 大小: 21.5 KB
  • 大小: 25.2 KB
分享到:
评论

相关推荐

    solr所需配置文件

    10. **语言分析器相关文件**:例如stopwords.txt(停用词列表)、synonyms.txt(同义词列表)等,用于文本分析和索引时的词汇处理。 这些配置文件在Solr中的作用至关重要,正确配置它们可以优化索引性能,提高查询...

    配置好的solr启动环境

    1. **同义词**:在Solr中,可以使用Solr的同义词扩展来处理词汇的同义关系。例如,"车"和"汽车"可以视为同义词,当用户搜索"车"时,也能匹配到包含"汽车"的文档。这通过配置同义词文件和同义词过滤器实现。 2. **...

    图解Solr5.3.1与MySQL配置【原创】

    - **synonyms.txt**:同义词配置。 - **spellings.txt**:拼写检查配置。 #### 八、测试与验证 完成配置后,我们需要进行一些测试操作来验证Solr是否能够正确地从MySQL中导入数据,并提供准确的搜索结果。 1. **...

    solr-lemmatization:从维基词典的维基媒体工具服务器定义转储中构建用于词形还原的 Solr 同义词文件的项目

    在 "solr-lemmatization" 中,Java 被用来读取和处理大型数据文件,执行数据转换,以及生成 Solr 配置所需的同义词文件。开发者可能使用了 Java 的文件 I/O 功能,集合类,以及可能的第三方库,如 Apache Commons 或...

    IKAnalyzer分词及solr4103配置说明

    **IKAnalyzer分词器概述** ...通过正确配置IKAnalyzer的同义词功能,可以显著提升搜索质量和用户体验。理解并掌握IKAnalyzer的配置和使用,对于任何涉及中文分词和搜索引擎优化的项目都是至关重要的。

    IKAnalyzer2012FF_u1.jar同义词版本

    IKAnalyzer2012FF_u1.jar,同义词版本,本人亲测,木有问题,可以配置Solr的同义词,

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 提供了丰富的扩展性,用户可以根据自己的需求定制词典,支持自定义停用词、同义词等,以满足不同场景的分词需求。同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词...

    solr中文分词器

    3. 结合其他组件:配合SynonymFilter处理同义词,提升搜索效果。 4. 多字段分词:针对不同字段使用不同的分词策略,满足多样化需求。 总结来说,Solr中文分词器是实现高效中文搜索的关键,选择合适的分词器并进行...

    solr分词器使用手册

    在查询时,除了相同的分词及过滤过程外,还会额外使用SynonymFilterFactory来处理同义词。 #### 五、Solr安装与配置 - **下载与安装**: - **下载地址**:官方下载地址为http://lucene.apache.org/solr/。 - **...

    solr6.2.1项目包

    对于大型企业或者需要处理大量数据的场景,Solr 6.2.1提供了强大的搜索能力,包括拼写纠错、同义词处理、评分机制等,能有效提升用户体验。同时,其丰富的API和社区支持,使得定制化需求得以满足。总之,Solr 6.2.1...

    最新版linux solr-8.8.2.tgz

    了解这些基础知识后,你就可以开始探索 Solr 8.8.2 的高级特性,如实时增删改查、多字段排序、高亮显示、同义词处理、地理位置搜索以及更复杂的查询表达式等。通过熟练掌握 Solr,你将能够构建强大而高效的全文搜索...

    solr-7.1.0.zip solr搜索引擎安装包

    Solr通过建立倒排索引来实现高效的搜索,将每个词与包含它的文档关联起来。 在Solr 7.1.0中,用户可以创建多个独立的搜索“集合”或“核心”,每个集合都可以有自己的索引和配置。这样,你可以为不同的数据集或业务...

    solr-7.7.2+ik-analyzer-solr7x.zip

    4. **扩展性**:Ik Analyzer提供了一些插件接口,方便开发者根据需求进行扩展,例如停用词过滤、同义词扩展等。 5. **兼容性**:Ik Analyzer与多个版本的Solr和Lucene兼容,包括在这个压缩包中的Solr 7.x版本。 将...

    solr-4.10.3

    6. **拼音和同义词支持**:Solr内置了对中文拼音和同义词的支持,可以通过配置扩展其自然语言处理能力,提升中文搜索的准确度。 7. **配置与定制**:Solr的配置主要通过XML文件进行,包括核心配置、请求处理器、...

    Solr配置安装(二)--之中文分语器IKAnalyzer

    同时,IKAnalyzer也支持模糊匹配和同义词扩展,增强了搜索的灵活性。 总之,IKAnalyzer是Solr处理中文文本不可或缺的一部分,通过合理的配置和使用,可以显著提升中文搜索的性能和用户体验。对于开发者来说,理解和...

    solr全文检索

    通过修改`schema.xml`,可以实现更精确的匹配策略,如短语搜索、同义词搜索等。 SolrJ是Solr的Java客户端库,用于与Solr服务器进行通信,执行索引操作和查询。在"SolrJ"文件中,你将学习到如何使用SolrJ来创建索引...

    Solr服务器

    它内置了词干提取、同义词扩展和停用词过滤等自然语言处理工具,以提高搜索精度。 2. **分面导航(Faceting)**:Solr允许用户通过分面来过滤和细化搜索结果,这在电子商务网站和大型信息库中非常常见,用户可以...

    solr-8.0.0.tgz

    1. **全文检索**:Solr以其强大的文本分析能力而闻名,它支持多种语言的分词,可以进行复杂的查询操作,如模糊匹配、短语查询和同义词搜索。 2. **多字段索引**:Solr允许用户为不同的数据字段创建独立的索引,这...

Global site tag (gtag.js) - Google Analytics