`
hdxiong
  • 浏览: 378067 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

solr-paoding分词-添加自定义词典注意事项

 
阅读更多
一、添加自定义词典
1、在/paoding/dic目录下新建一个文件。注意编码应该为UTF-8。
2、添加自定义词组,每行一个。
3、添加或修改过词典后必须删除.compiled文件夹。
4、更新索引即可。

二、添加自定义同义词
1、在conf/synonyms.txt中添加自定义的同义词。注意编码应该为UTF-8。
2、在分词器的查询分析器里面添加
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
3、用同义词查询即可。
分享到:
评论

相关推荐

    Solr3.2 + Paoding中文分词的搜索引擎

    Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案,结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而...

    paoding 分词

    paoding支持自定义词典,用户可以通过添加或修改词典文件来适应特定场景的需求。词典格式通常为UTF-8编码的文本文件,每行一个词语。 2. **分词模式** paoding提供了多种分词模式,如精确模式、全模式、简繁体...

    solr 5.x 和 6.x 最新中文分词器

    3. Paoding Analyzer:基于词典的分词器,拥有较高的分词准确率,支持用户自定义词典,适合专业领域的搜索需求。 二、Solr配置中文分词器 在Solr中使用中文分词器需要在配置文件中指定。通常在`schema.xml`或`...

    solr demo文件txt版

    - **注意事项**: 应确保该路径有足够的空间,并且Solr服务有权限写入此目录。 ### Java 示例代码解析 #### 2. Jsoup 用于网页抓取与解析 **org.jsoup.examples.ListLinks.java** 展示了如何使用Java库Jsoup来...

    paoding-analysis

    Paoding分词器for Lucene4.2.1-Solr4.2.1,下载后自行修改src下的paoding-dic-home.properties文件,将paoding.dic.home设成词典路径

    Solr3.5开发应用指导

    - **2.2.2 paoding**:Paoding是一种高性能的中文分词器,支持多种分词模式,包括精确模式、全模式等。 **2.3 多核(MultiCore)配置** - **2.3.1 MultiCore的配置方法**:在`solr.xml`文件中定义多个核心,并为每...

    开源企业搜索引擎SOLR的应用教程

    - **2.2.2 paoding**:paoding是一款高性能的中文分词工具,同样适用于Solr,支持自定义词典和多种分词模式。 **2.3 多核(MultiCore)配置** - **2.3.1 MultiCore的配置方法**:在Solr中可以配置多个核心,每个...

    solr技术方案.pdf

    为了实现更好的中文处理,我们可以选用第三方分词器,如Paoding、Imdict、IK Analyzer和Mmseg4j。在这些分词器中,Mmseg4j因其较高的准确率(98%)和简单的配置而被选中。通过在Solr的schema.xml中定义新的fieldType...

    技术团队培训:全文检索.pptx

    - **解析器(token parser)**:即分词器,常见的工具有IK、Paoding等。分词过程包括去除停用词、词元切分、词性分析及过滤等步骤。 - **断词/分词(word segmentation)**:针对不同语言的特点进行,尤其是中文这种复杂...

    网站搜索的进化PPT学习教案.pptx

    常见的中文分词工具有Scws(基于词频词典)、Paoding(基于Lucene)、Imdict(智能词典)和Mmseg4j(封装mmseg算法,自带Sogou词库)。这些工具帮助搜索引擎理解中文文本,提高搜索准确性。 4. Sphinx与Coreseek的...

Global site tag (gtag.js) - Google Analytics