`
xiaolin0199
  • 浏览: 573158 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

solr全文搜索+mmseg4j中文分词[配置]

    博客分类:
  • solr
阅读更多

这二天一直在研究全文搜索,想放到自己的一个网站上做应用;再经过对比之后,选择了同为JAVA的基于lucene的solr+mmseg4j中文分词器;

 

首先:上网下载一个最新的Solr:http://lucene.apache.org/solr/

       安装Solr, 下载下来直接解压,然后进入apache-solr-1.4.0/example下面,直接运行:
       java -jar start.jar
       然后查看http://localhost:8983/solr/,看到欢迎界面,一切ok。

       (在这里,我将apache-solr-1.4.0放置于我的django项目根目录,与settings.py目录平级)

第二步:上网下载最新的mmseg4j:http://code.google.com/p/mmseg4j/downloads/list (现在最新的是1.8.2)

       (solr.home == apache-solr-1.4.0/example/solr/)

       把 mmseg4j-all-1.8.2.jar 放到 solr.home/lib下,届时solr服务器启动时会自动加载;

       在solr.home下新建一个dic文件夹(如没有),里面放置您的字典文件(*.dic),chars.dicwords.dic 是一定要有的;

第三步:更新solr.home/conf/schema.xml文件;

      1:add fieldType;

 

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" >  
    <analyzer>  
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>  
        <filter class="solr.LowerCaseFilterFactory"/>  
    </analyzer>  
</fieldType>  
<fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" >  
    <analyzer>  
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>  
        <filter class="solr.LowerCaseFilterFactory"/>  
    </analyzer>  
</fieldType>  
<fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" >  
    <analyzer>  
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>  
        <filter class="solr.LowerCaseFilterFactory"/>  
    </analyzer>  
</fieldType> 

 2:add field

 

<field name="simple" type="textSimple" indexed="true" stored="true"/>  
<field name="complex" type="textComplex" indexed="true" stored="true"/>  
<field name="text" type="textMaxWord" indexed="true" stored="true"/>

    *(在这里,因为原文件已存在text字段,所以将原先的text字段删除即可;也可以修改您的text名称,不过我没有试)

3:add copyfield

 

<copyField source="text" dest="simple" />  
<copyField source="text" dest="complex" />

 这样schema文件就修改好了;

 *(记住这个时候一定要重启一下solr服务才能生效,尤其是你将要生成索引的时候)

 

主要参考:http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.html

               http://fzuslideblog.appspot.com/2010/03/25/django_solr_search.html

分享到:
评论

相关推荐

    Solr3.2 + mmseg4j-1.8.4中文搜索引擎_Demo

    在"Solr3.2+mmseg4j-1.8.4中文搜索引擎 demo"项目中,`paoding-analysis.jar`是包含mmseg4j分析器的Java库文件,它提供了与Solr交互的接口,使得Solr能够使用mmseg4j进行中文分词。`readme.txt`通常包含了关于如何...

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    tomcat+solr3.6+mmseg4j

    2. **集成MMSEG4J**:下载MMSEG4J库,将其添加到Solr的lib目录,更新Solr配置文件schema.xml,定义分词器和过滤器链。 3. **配置分词器**:在solrconfig.xml中添加自定义分析器,指定使用MMSEG4J分词器。 4. **测试...

    solr6配置mmseg4j

    在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    而mmseg4j是Solr中常用的中文分词组件,它的加入增强了Solr在中文处理上的能力。 **压缩包子文件的文件名称列表解析:** 1. `mmseg4j-core-1.9.1.jar`:这是mmseg4j的核心库文件,包含了mmseg4j的主要分词算法和...

    跟益达学Solr5之使用MMSeg4J分词器

    Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习如何在Solr5中集成并使用MMSeg4J分词器,提升中文处理能力。 首先,我们来了解一下MMSeg4J。这是...

    mmseg4j-solr-2.4.0.jar

    而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j-solr-2.3.0&mmseg4j;-core.zip

    集成后,用户可以在Solr的配置文件中指定使用mmseg4j作为默认的中文分词器,从而提升搜索的准确性和效率。 在Solr5.0中,自定义词库的设置是一项重要的任务,因为合理的词库能有效提高搜索的相关性。mmseg4j支持...

    MMseg4j中文分词词库

    MMseg4j是一个广泛应用于Java环境中的中文分词工具,它以其高效、灵活和准确的特性,在Lucene和Solr等搜索引擎框架中占据了重要地位。本文将深入探讨MMseg4j中文分词词库的来源、功能以及如何在实际应用中发挥作用。...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    总的来说,mmseg4j-solr-2.2.0是Solr中一个强大的中文处理工具,它通过高效的分词算法,提升了中文搜索的质量和效率。对于需要处理大量中文数据的系统,mmseg4j-solr是一个值得信赖的选择。开发者可以通过深入研究和...

    solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索

    总结来说,"solr4.7.2+mmseg2.0+pinyinAnalyzer实现拼音、简拼检索"是一种优化中文搜索体验的技术方案,结合了先进的全文搜索服务器、高效的中文分词工具和拼音分析器,提升了搜索引擎的智能化水平。在实践中,我们...

    solr中文分词包mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar

    mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

    ik+mmseg分词器

    1. 下载并解压提供的 `ik+mmseg分词器完美兼容solr6.1` 压缩包,其中包含了所需的分词器库和配置文件。 2. 将解压后的分词器库(通常为 JAR 文件)复制到 Solr 的 `server/solr/lib` 目录下,确保 Solr 在启动时能...

    mmseg4j-solr全版本及配置

    mmseg4j-solr是专门为Solr设计的中文分词插件,它基于mmseg算法,能有效处理中文词汇的切分问题,提高搜索的准确性和效率。mmseg4j-solr的不同版本对应于不同的Solr版本,以确保兼容性,因此在选择使用时需匹配相应...

    mmseg4j-solr-2.2.0-with-mmseg4j-core.zip

    mmseg4j-solr-2.2.0-with-mmseg4j-core.zip是一个专门为Solr 4.9版本设计的中文分词解决方案,旨在提升中文搜索的准确性和效率。 mmseg4j是基于Java实现的中文分词库,全称为“Minimum Edit Distance Segmentation ...

    solr6配置mmseg4j所需jar包和dic文件

    在Solr6版本中,为了实现中文分词,我们通常会引入第三方分词器,如mmseg4j。mmseg4j是一个基于Java的高效中文分词库,它可以提供灵活的分词规则,适用于各种应用场景。 配置mmseg4j涉及到的主要步骤包括: 1. **...

    mmseg4j最新jar完美整合solr-5.3.0

    本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词功能。 首先,mmseg4j-solr-2.3.1-SNAPSHOT.jar和mmseg4j-core-1.10.1-SNAPSHOT.jar是mmseg4j的核心组件,分别提供了...

    solr中的mmesg4j中文分词器安装

    ### Solr中的MMSeg4J中文分词器安装与配置详解 #### 一、MMSeg4J简介 MMSeg4J是一款高效的Java实现的中文分词工具包,它基于统计和规则混合的方法来处理中文文本的分词问题。在搜索引擎如Solr中,通过集成MMSeg4J...

Global site tag (gtag.js) - Google Analytics