1.
下载
paoding-analysis-2.0.4-beta.zip
http://code.google.com/p/paoding/downloads/list
2.
解压压缩包至
paoding-analysis-2.0.4-beta
3.
设置
paoding
的
home
环境变量:
l
把
paoding-analysis-2.0.4-beta
中的
dic
文件夹考到
solr
的
home
文件夹中
l
进入
paoding-analysis-2.0.4-beta
找到
paoding-analysis.jar
,将其考到
tomcat/webapps/solr/solr/WEB-INF/lib
下
l
解压
paoding-analysis.jar
,找到文件
paoding-dic-home.properties
,更改属性如下:
paoding.dic.home=D:/solr/solr/dic
(
D:/solr/solr
为
solr
的
home
目录)
l
重新编译打包成
paoding-analysis.jar
4.
封装
paoding
package
org.paoding;
import
java.io.Reader;
import
java.util.Map;
import
net.paoding.analysis.analyzer.PaodingTokenizer;
import
net.paoding.analysis.analyzer.TokenCollector;
import
net.paoding.analysis.analyzer.impl.MaxWordLengthTokenCollector;
import
net.paoding.analysis.analyzer.impl.MostWordsTokenCollector;
import
net.paoding.analysis.knife.PaodingMaker;
import
org.apache.lucene.analysis.TokenStream;
import
org.apache.solr.analysis.BaseTokenizerFactory;
/**
*
中文切词
对庖丁切词的封装
*/
public
class
ChineseTokenizerFactory
extends
BaseTokenizerFactory {
/**
*
最多切分
默认模式
*/
public
static
final
String
MOST_WORDS_MODE
=
"most-words"
;
/**
*
按最大切分
*/
public
static
final
String
MAX_WORD_LENGTH_MODE
=
"max-word-length"
;
private
String
mode
=
null
;
public
void
setMode(String mode) {
if
(mode==
null
||
MOST_WORDS_MODE
.equalsIgnoreCase(mode)
||
"default"
.equalsIgnoreCase(mode)) {
this
.
mode
=
MOST_WORDS_MODE
;
}
else
if
(
MAX_WORD_LENGTH_MODE
.equalsIgnoreCase(mode)) {
this
.
mode
=
MAX_WORD_LENGTH_MODE
;
}
else
{
throw
new
IllegalArgumentException(
"
不合法的分析器
Mode
参数设置
:"
+ mode);
}
}
@Override
public
void
init(Map args) {
super
.init(args);
setMode( (String) args.get(
"mode"
));
}
public
TokenStream create(Reader input) {
return
new
PaodingTokenizer(input, PaodingMaker.make
(),
createTokenCollector());
}
private
TokenCollector createTokenCollector() {
if
(
MOST_WORDS_MODE
.equals(
mode
))
return
new
MostWordsTokenCollector();
if
(
MAX_WORD_LENGTH_MODE
.equals(
mode
))
return
new
MaxWordLengthTokenCollector();
throw
new
Error(
"never happened"
);
}
}
注:其中需要的包为
solr.war
中的
lib
库和庖丁文件包中的
paoding-analysis.jar
将以上代码打包为
paoding.jar(附件中可下载),
考到t
omcat/webapps/solr/solr/WEB-INF/lib
下。
5.
找到
solr
的
home
目录下的
conf
(即
D:"solr"solr"conf
)中的
schema.xml,
做如下修改:
<fieldType
name
="text"
class
="solr.TextField"
positionIncrementGap
="100"
>
<analyzer
type
="index"
>
<!--<tokenizer class="solr.WhitespaceTokenizerFactory"/>-->
<tokenizer
class
="
org.paoding.ChineseTokenizerFactory
"
mode
="most-words"
/>
··· ···
</analyzer>
<analyzer
type
="query"
>
<!--<tokenizer class="solr.WhitespaceTokenizerFactory"/>-->
<tokenizer
class
="
org.paoding.ChineseTokenizerFactory
"
mode
="most-words"
/>
··· ···
</analyzer>
</fieldType>
其中
<!-- -->
里面的为原来默认的内容
6.
重启
tomcat
即可。进行测试
http://localhost:8888/solr/admin/analysis.jsp
分享到:
相关推荐
NULL 博文链接:https://qiaopang.iteye.com/blog/451897
### Solr + Paoding:构建高效全文检索系统 #### 一、Solr简介与核心功能 **Solr** 是一种开放源代码的企业级搜索平台,它基于 **Lucene Java**,能够提供强大的全文检索功能。Solr 的核心优势在于其灵活易用的...
Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案,结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而...
下面我们将详细讨论如何将 Solr 3.5 版本整合到 Tomcat 中。 首先,我们需要了解 Solr 3.5 的主要特性。这个版本包含了对搜索性能的优化,改进了处理大量数据的能力,并且引入了一些新的查询过滤器和排序选项。同时...
标题中的“window下tomcat+solr整合”指的是在Windows操作系统环境下,将Apache Tomcat(一个流行的Java Servlet容器)与Apache Solr(一个基于Lucene的全文搜索服务器)进行集成,以便实现高效的全文检索功能。...
### Solr 4.10.2 与 Tomcat 6 的整合详解 #### 一、Solr 与 Tomcat 整合概述 Solr 是一个高性能、采用 Java 开发的全文搜索引擎,常用于网站搜索功能的搭建。而 Apache Tomcat 是一个免费开源的 Servlet 容器,...
Solr+Paoding中文搜索引擎Demo是一个综合性的项目,旨在展示如何结合Apache Solr与Paoding中文分词器来构建一个高效、精准的中文搜索引擎。Apache Solr是一个流行的开源全文搜索服务器,而Paoding中文分词器是专为...
本教程将详细介绍如何在Tomcat 8.0中整合Solr 8.0,并配置IK分词器,以实现更精准的中文分词搜索。 首先,我们需要了解Tomcat和Solr的基本概念。Tomcat是Apache软件基金会的Jakarta项目中的一个核心项目,它遵循...
标题中的"solr ssm java"表明这是一个使用Java语言,结合Spring、SpringMVC和MyBatis(SSM)框架的项目,其中整合了Apache Solr搜索引擎。让我们深入了解一下这些技术及其相互作用。 **Solr**: Apache Solr是基于...
标题中的"tomcat整合solr.rar"提示我们这是一个关于如何将Apache Tomcat与Apache Solr进行集成的资源包。Tomcat是广泛使用的Java Servlet容器,而Solr则是一个开源的全文搜索引擎,常用于构建高效的搜索功能。这个...
标题“solr与tomcat整合”涉及的是将Apache Solr搜索引擎集成到Apache Tomcat应用服务器的过程。Solr是一款基于Lucene的开源搜索平台,而Tomcat是Java Servlet和JavaServer Pages的容器。整合这两者可以方便地在Web...
《剖析paoding-webx3-solr-lucene:构建高效搜索引擎的深度探索》 在现代互联网应用中,数据量的增长速度惊人,如何高效地搜索和处理这些数据成为了开发者面临的重大挑战。"paoding-webx3-solr-lucene"是一个专注于...
### Solr 4.7 服务搭建详细指南 #### 一、环境准备 为了搭建 Solr 4.7 服务,我们需要确保以下环境已经准备好: 1. **Java Development Kit (JDK) 1.7**:Solr 需要 Java 运行环境支持,这里我们选择 JDK 1.7 ...
Solr 3.5与Tomcat的整合是一个关键的步骤,尤其对于那些希望在Java应用服务器上部署Solr搜索引擎的企业。Solr是一个基于Apache Lucene的开源搜索平台,提供了高效、可扩展的全文检索、命中高亮、拼写检查、分类、 ...
solr3 配置 paoding 需要的人可以下载
Solr如何进行索引和搜索 索引:客户端(可以是浏览器可以是java程序)发送post请求到solr服务器,发给solr服务器一个文档(xml、json),就可以进行一个添加索引删除索引、修改索引的操作。 搜索:客户端(可以是...
以上就是Solr 4.9与Jetty以及Tomcat 8.0整合的基本步骤,整合过程中需确保所有配置文件的正确性和路径的准确性,以确保服务能够正常启动和运行。对于日志管理和性能优化,还可以进一步配置Solr的相关参数,以满足...
"solr 3.5 msg整合可直接使用"的标题意味着这个压缩包包含了一个已经配置好并且可以立即运行的Solr 3.5实例,特别地,它可能已经集成了某种消息处理或通信机制(可能指的是message5_1),以便于数据的导入和检索。...
spring整合solr抽取数据,简单使用中 <!--定义solr的server--> <bean id="httpSolrServer" class="org.apache.solr.client.solrj.impl.HttpSolrServer">