`

solr整合paoding

 
阅读更多

1.         下载 paoding-analysis-2.0.4-beta.zip

http://code.google.com/p/paoding/downloads/list  

2.         解压压缩包至 paoding-analysis-2.0.4-beta

3.         设置 paoding home 环境变量:

l         paoding-analysis-2.0.4-beta 中的 dic 文件夹考到 solr home 文件夹中

l         进入 paoding-analysis-2.0.4-beta 找到 paoding-analysis.jar ,将其考到 tomcat/webapps/solr/solr/WEB-INF/lib

l         解压 paoding-analysis.jar ,找到文件 paoding-dic-home.properties ,更改属性如下:

paoding.dic.home=D:/solr/solr/dic D:/solr/solr solr home 目录)

l         重新编译打包成 paoding-analysis.jar

4.         封装 paoding     

package org.paoding;

import java.io.Reader;

import java.util.Map;

import net.paoding.analysis.analyzer.PaodingTokenizer;

import net.paoding.analysis.analyzer.TokenCollector;

import net.paoding.analysis.analyzer.impl.MaxWordLengthTokenCollector;

import net.paoding.analysis.analyzer.impl.MostWordsTokenCollector;

import net.paoding.analysis.knife.PaodingMaker;

import org.apache.lucene.analysis.TokenStream;

import org.apache.solr.analysis.BaseTokenizerFactory;

/**

  * 中文切词 对庖丁切词的封装

  */

public class ChineseTokenizerFactory extends BaseTokenizerFactory {

    /**

     * 最多切分    默认模式

     */

    public static final String MOST_WORDS_MODE = "most-words" ;

    /**

     * 按最大切分

     */

    public static final String MAX_WORD_LENGTH_MODE = "max-word-length" ;

    private String mode = null ;

    public void setMode(String mode) {

             if (mode== null || MOST_WORDS_MODE .equalsIgnoreCase(mode)

                      || "default" .equalsIgnoreCase(mode)) {

                  this . mode = MOST_WORDS_MODE ;

             } else if ( MAX_WORD_LENGTH_MODE .equalsIgnoreCase(mode)) {

                  this . mode = MAX_WORD_LENGTH_MODE ;

             }

             else {

                  throw new IllegalArgumentException( " 不合法的分析器 Mode 参数设置 :" + mode);

             }

        }

    @Override

    public void init(Map args) {

        super .init(args);

        setMode( (String) args.get( "mode" ));

    }

    public TokenStream create(Reader input) {

        return new PaodingTokenizer(input, PaodingMaker.make (),

                  createTokenCollector());

    }

    private TokenCollector createTokenCollector() {

        if ( MOST_WORDS_MODE .equals( mode ))

             return new MostWordsTokenCollector();

        if ( MAX_WORD_LENGTH_MODE .equals( mode ))

             return new MaxWordLengthTokenCollector();

        throw new Error( "never happened" );

    }

 }

 

 

注:其中需要的包为 solr.war 中的 lib 库和庖丁文件包中的 paoding-analysis.jar

将以上代码打包为 paoding.jar(附件中可下载), 考到t omcat/webapps/solr/solr/WEB-INF/lib 下。

 

5.         找到 solr home 目录下的 conf (即 D:"solr"solr"conf )中的 schema.xml, 做如下修改:

 

 

<fieldType  name ="text"  class ="solr.TextField"  positionIncrementGap ="100" >   

      <analyzer  type ="index" >   

        <!--<tokenizer class="solr.WhitespaceTokenizerFactory"/>-->  

        <tokenizer  class =" org.paoding.ChineseTokenizerFactory "  mode ="most-words" />   

      ··· ···   

      </analyzer>   

      <analyzer  type ="query" >   

         <!--<tokenizer class="solr.WhitespaceTokenizerFactory"/>-->  

         <tokenizer      class =" org.paoding.ChineseTokenizerFactory "  mode ="most-words" />     

        ··· ···   

      </analyzer>   

</fieldType>   

其中 <!-- --> 里面的为原来默认的内容

 

6. 重启 tomcat 即可。进行测试 http://localhost:8888/solr/admin/analysis.jsp

分享到:
评论

相关推荐

    solr 和paoding整合

    NULL 博文链接:https://qiaopang.iteye.com/blog/451897

    solr+paoding

    ### Solr + Paoding:构建高效全文检索系统 #### 一、Solr简介与核心功能 **Solr** 是一种开放源代码的企业级搜索平台,它基于 **Lucene Java**,能够提供强大的全文检索功能。Solr 的核心优势在于其灵活易用的...

    Solr3.2 + Paoding中文分词的搜索引擎

    Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案,结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而...

    Solr3.5整合Tomcat

    下面我们将详细讨论如何将 Solr 3.5 版本整合到 Tomcat 中。 首先,我们需要了解 Solr 3.5 的主要特性。这个版本包含了对搜索性能的优化,改进了处理大量数据的能力,并且引入了一些新的查询过滤器和排序选项。同时...

    window下tomcat+solr整合

    标题中的“window下tomcat+solr整合”指的是在Windows操作系统环境下,将Apache Tomcat(一个流行的Java Servlet容器)与Apache Solr(一个基于Lucene的全文搜索服务器)进行集成,以便实现高效的全文检索功能。...

    solr4.10.2与tomcat6的整合

    ### Solr 4.10.2 与 Tomcat 6 的整合详解 #### 一、Solr 与 Tomcat 整合概述 Solr 是一个高性能、采用 Java 开发的全文搜索引擎,常用于网站搜索功能的搭建。而 Apache Tomcat 是一个免费开源的 Servlet 容器,...

    Solr+Paodng中文搜索引擎__Demo

    Solr+Paoding中文搜索引擎Demo是一个综合性的项目,旨在展示如何结合Apache Solr与Paoding中文分词器来构建一个高效、精准的中文搜索引擎。Apache Solr是一个流行的开源全文搜索服务器,而Paoding中文分词器是专为...

    Tomcat8.0与Solr8.0的整合

    本教程将详细介绍如何在Tomcat 8.0中整合Solr 8.0,并配置IK分词器,以实现更精准的中文分词搜索。 首先,我们需要了解Tomcat和Solr的基本概念。Tomcat是Apache软件基金会的Jakarta项目中的一个核心项目,它遵循...

    solr ssm java

    标题中的"solr ssm java"表明这是一个使用Java语言,结合Spring、SpringMVC和MyBatis(SSM)框架的项目,其中整合了Apache Solr搜索引擎。让我们深入了解一下这些技术及其相互作用。 **Solr**: Apache Solr是基于...

    tomcat整合solr.rar

    标题中的"tomcat整合solr.rar"提示我们这是一个关于如何将Apache Tomcat与Apache Solr进行集成的资源包。Tomcat是广泛使用的Java Servlet容器,而Solr则是一个开源的全文搜索引擎,常用于构建高效的搜索功能。这个...

    solr与tomcat整合

    标题“solr与tomcat整合”涉及的是将Apache Solr搜索引擎集成到Apache Tomcat应用服务器的过程。Solr是一款基于Lucene的开源搜索平台,而Tomcat是Java Servlet和JavaServer Pages的容器。整合这两者可以方便地在Web...

    paoding-webx3-solr-lucene

    《剖析paoding-webx3-solr-lucene:构建高效搜索引擎的深度探索》 在现代互联网应用中,数据量的增长速度惊人,如何高效地搜索和处理这些数据成为了开发者面临的重大挑战。"paoding-webx3-solr-lucene"是一个专注于...

    solr4.7服务搭建

    ### Solr 4.7 服务搭建详细指南 #### 一、环境准备 为了搭建 Solr 4.7 服务,我们需要确保以下环境已经准备好: 1. **Java Development Kit (JDK) 1.7**:Solr 需要 Java 运行环境支持,这里我们选择 JDK 1.7 ...

    solr 3.5 tomcat 整合可直接使用

    Solr 3.5与Tomcat的整合是一个关键的步骤,尤其对于那些希望在Java应用服务器上部署Solr搜索引擎的企业。Solr是一个基于Apache Lucene的开源搜索平台,提供了高效、可扩展的全文检索、命中高亮、拼写检查、分类、 ...

    paoding-analysis3.0

    solr3 配置 paoding 需要的人可以下载

    Solr高级搜索+tomcat整合服务器

    Solr如何进行索引和搜索 索引:客户端(可以是浏览器可以是java程序)发送post请求到solr服务器,发给solr服务器一个文档(xml、json),就可以进行一个添加索引删除索引、修改索引的操作。 搜索:客户端(可以是...

    solr4.9与tomcat8,tomcat7整合

    以上就是Solr 4.9与Jetty以及Tomcat 8.0整合的基本步骤,整合过程中需确保所有配置文件的正确性和路径的准确性,以确保服务能够正常启动和运行。对于日志管理和性能优化,还可以进一步配置Solr的相关参数,以满足...

    solr 3.5 msg整合可直接使用

    "solr 3.5 msg整合可直接使用"的标题意味着这个压缩包包含了一个已经配置好并且可以立即运行的Solr 3.5实例,特别地,它可能已经集成了某种消息处理或通信机制(可能指的是message5_1),以便于数据的导入和检索。...

    spring整合solr

    spring整合solr抽取数据,简单使用中 &lt;!--定义solr的server--&gt; &lt;bean id="httpSolrServer" class="org.apache.solr.client.solrj.impl.HttpSolrServer"&gt;

Global site tag (gtag.js) - Google Analytics