`

solr中使用IKAnalysizer 基于配置的自定义词典扩充

    博客分类:
  • solr
 
阅读更多

 

基于配置的词典扩充

IK 分词器还支持通过配置IKAnalyzer.cfg.xml 文件来扩充您的专有词典以及停止词典(过滤词典)。

步骤如下:

 

1. 部署IKAnalyzer.cfg.xml

IKAnalyzer.cfg.xml 部署在代码根目录下( 对于web 项目, 通常是WEBINF/classes 目录)同hibernate、log4j 等配置文件相同。

2. 词典文件的编辑与部署

分词器的词典文件格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。

备注,如果您不了解什么是无BOM 的UTF-8 格式, 请保证您的词典使用UTF-8 存储,并在文件的头部添加一空行)。

您可以参考分词器源码org.wltea.analyzer.dic 包下的.dic 文件。

词典文件应部署在Java 的资源路径下,即ClassLoader 能够加载的路径中。(推荐同IKAnalyzer.cfg.xml 放在一起)

3. IKAnalyzer.cfg.xml 文件的配置

在配置文件中,用户可一次配置多个词典文件。文件名使用“;”号分隔。文件路径为相对java 包的起始根路径。

 

参考:IKAnalyzer中文分词器V3.2.3使用手册.pdf (见附件)

 

 

4.   同义词扩展

      直接在solr_应用  下 \conf\synonyms.txt

      备注: 添加中文在synonyms.txt后,Tomcat启动报错,不能读取文件。

      原因:使用SOLR加入中文同义词需要把synonyms.txt的默认编码改成与自己系统使用的编码一致。 

     例如:你整个系统的编码都是用UTF-8,那么你就要把synonyms.txt这个文件的编码格式转换成UTF-8。原因是,对某个词进行同义的时候找到的词是乱码,而乱码在对于的索引中是没有存在的。这也就导致了中文不可以使用的原因。

     解决方法:在eclipse里把synonyms.txt文件编码格式转成UTF-8(系统默认UTF-8),然后再输入中文同义词,保存,重启tomcat,问题解决。

分享到:
评论

相关推荐

    solr实现电商自定义打分

    以下是一个简单的示例,展示了如何在查询中使用自定义函数: ```sql q=商品名称:some_query&defType=func&qf=sales^2.0 reviews^1.5 _score^0.5 ``` 在这个例子中,`sales`和`reviews`是商品的字段,分别代表销量和...

    solr软件包扩展词典可停词配置学习和开发文档

    总之,掌握Solr的Linux安装、扩展词典配置和停词管理是提升搜索质量的基础。通过深入学习Solr的文档和实践经验,开发者可以进一步优化搜索性能,满足复杂的企业级搜索需求。在实际项目中,结合具体业务场景,灵活...

    自定义Solr分词器

    自定义的Solr 分词器,可以通过竖线"|"来分词,可以在博客http://blog.csdn.net/jiangchao858/article/details/68954044看到生成过程与使用步骤。

    Solr5.4中文分词

    通过以上步骤,我们就能在Solr 5.4中成功配置并使用中文分词库。这个过程对于提升中文文档的检索效率和准确性至关重要,因为正确的分词可以极大地提高搜索结果的相关性。同时,根据实际需求,还可以对分词库进行定制...

    solr5.4开发环境完整配置

    在本文中,我们将详细探讨如何配置 Solr 5.4 开发环境,包括安装、配置、以及数据导入,同时也会提及 mmseg4j 分词器的使用。 首先,让我们了解 mmseg4j。这是一款适用于Java的中文分词库,它能够有效地对中文文本...

    solr中文解析器以及使用文档

    3. **配置Solr的中文解析器**:在Solr中使用IK Analyzer,需要在solrconfig.xml和schema.xml这两个配置文件中进行设置。首先,需要在solrconfig.xml中指定查询分析器和索引分析器为IK Analyzer;然后,在schema.xml...

    solr所需要配置的资源.zip

    它支持自定义词典、动态加载、多种分词模式等特性,能提高中文文本的索引和查询效率。在使用IK分词器时,我们需要将对应的jar文件添加到Solr的类路径中,确保在索引和查询时能正确处理中文内容。 Solr压缩包内包含...

    Solr(Cloudera)使用手册

    2. **配置分词词典**:根据需求选择合适的分词词典,并配置到IK分词器中。 3. **加载中文分词jar包**:将中文分词器的jar包添加到Solr的lib目录下,以供Solr使用。 #### 六、监控Solr 监控Solr集群的状态对于及时...

    mmseg4j-solr全版本及配置

    mmseg4j的分词效果很大程度上依赖于词典的质量和更新,正确配置词典路径能让系统找到并使用自定义词典,提升分词效果。这一步骤对处理专业领域或特定行业的搜索需求尤为重要。 总结来说,掌握mmseg4j-solr的配置和...

    solr6.0以上版本可以配置的IKAnalyzer分词器

    通过上述步骤,你可以在Solr6.6.0及更高版本中成功配置和使用IKAnalyzer分词器,提升你的中文搜索体验。记住,分词器的选择和配置对搜索引擎的性能至关重要,因此在实际应用中,可能需要根据具体需求进行调整和优化...

    solr服务器的搭建与配置实例

    通过以上步骤,我们成功搭建了一个基于Solr 5.3.1版本的搜索引擎服务器,并且配置了基本的数据导入和查询功能。此外,还介绍了如何配置中文分词器以及定时更新索引等功能,这对于构建具有高性能搜索能力的应用系统来...

    solr 中文分词

    要在 Solr 中使用 IK Analyzer,首先需要将其添加到 Solr 的类路径中,然后在 Solr 的 schema.xml 或 managed-schema 文件中配置字段类型(fieldType),指定使用 IK Analyzer。同时,可以设置自定义词典路径,以...

    ikanalyzer-solr中文分词包兼容solr7.5

    3. `IKAnalyzer.cfg.xml`: 这是ikanalyzer的配置文件,其中包含了分词器的设置,比如是否开启全模式分词、是否使用用户自定义词典、停用词列表等。用户可以通过编辑此文件来定制分词器的行为。 4. `stopword.dic`: ...

    solr中文分词器

    3. SmartChinese Analyzer:专为Solr和Lucene设计的中文分词器,支持停用词、自定义词典等功能,性能稳定。 4. LTP(LanTu NLP Platform):哈工大推出的一套完整的自然语言处理工具包,其分词效果在学术界受到认可...

    solr搜索服务器安装配置

    5. **配置日志**:Solr支持日志记录,可以在`conf/log4j.properties`文件中配置日志级别和输出方式。 6. **配置安全**:为了提高安全性,可以配置身份验证和授权机制。具体配置方法参见官方文档。 #### 三、Solr...

    Solr安装与配置

    如果使用中文搜索,还需要在 Tomcat 的 `server.xml` 文件中配置 Connector,将 `URIEncoding` 设置为 "UTF-8",以确保正确处理中文字符。 接下来是 Solr 的安装。从 Apache 官方网站下载最新或指定版本的 Solr,解...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    1. **灵活性**:Ik Analyzer支持用户自定义词典,可以通过配置文件添加或删除词语,以适应不同领域的分词需求。 2. **智能分析**:它采用了基于词频的动态策略,能够自动识别新词,同时兼顾常用短语的分词。 3. **...

    ik-analyzer-solr7(支持solr7)

    IK Analyzer是基于字典的中文分词工具,其特点是支持用户自定义词典,可以根据实际需求添加或删除词汇,提高分词准确性。 压缩包内的文件名称列表揭示了以下信息: 1. `ext_stopword.dic`:扩展停用词词典,用于...

    手把手教你 对 solr8 配置用户登录验证 涉及到的配置文件

    Solr 默认使用 Jetty 作为其 Web 服务器,Jetty 提供了基于角色的访问控制(RBAC)和身份验证机制。我们将通过修改配置文件来实现用户登录验证。 1. **配置文件解析** - **etc目录**: 这个目录通常包含 Solr 的...

Global site tag (gtag.js) - Google Analytics