默认的Solr没有中文分词功能,而Paoding则是能兼容Lucene的中文分词工具,但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法,参考:http://www.oschina.net/code/snippet_259382_14635,此方法兼容到Solr4.2.1。
但是直接使用的时候,会报NullPointer异常,需要修改一下文件,去掉toString(),src/net/paoding/analysis/ext/PaodingAnalyzerSolrFactory.java:
public void init(Map<String, String> args) { super.init(args); setMode(args.get("mode")); }
然后把Lucene4.2.1的jar包复制到paoding的lib目录下(lucene-core-4.2.1.jar,lucene-memory-4.2.1.jar,lucene-analyzers-common-4.2.1.jar,lucene-highlighter-4.2.1.jar),并把lucene3.0的jar包删除。因为Lucene4和Lucene3不能完全兼容,Paoding源码里的example已经不能用了,所以在build的时候需要把它们排除掉(修改build.xml,把带有examples的行都删除)。
使用Paoding的时候,还要指定词库,方法是修改src下的paoding-dic-home.properties文件,将paoding.dic.home设成词典路径。
开始编译吧
ant build
现在已经生成paoding-analysis.jar了,我们还要把它添加到Solr中。
首先需要做的是,把paoding-analysis.jar添加到Solr的example/webapps/solr.war/WEB-INF/lib/中。
然后修改Solr example的schema文件solr/collection1/conf/schema.xml,找到name=”text_general”这个fieldType,将其中tokenizer对应之class换为(index和query之下class都要换)net.paoding.analysis.ext.PaodingAnalyzerSolrFactory。
大功告成,重启Solr吧
修改之后的代码在github上https://github.com/wylazy/paoding
后记:
IKAnalyzer是一个比较活跃的中文分词工具,比Paoding更新要快一些,而且已经支持Solr4.2.1了。配置方法也更简单,只需要修改solr.war就行了。
1.将ik-analyzer-2012ff-u1.jar复制到WEB-INF/lib目录下
2.将IKAnalyzer.cfg.xml和stopword.dic复制到WEB-INF/classes/目录下
3.修改solr/collection1/conf/schema.xml,让其使用IK作为分词工具
<fieldType name="text_general" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>
相关推荐
Paoding分词器for Lucene4.2.1-Solr4.2.1,下载后自行修改src下的paoding-dic-home.properties文件,将paoding.dic.home设成词典路径
《Solr in Action》是一本关于Solr的实践指南,最新版本介绍了solr4.2.1底层所使用的最新***4.2.1技术。Solr是一个开源的搜索平台,基于Apache Lucene构建,它能够提供强大的搜索引擎功能,尤其适用于Web应用程序。 ...
- **4.2.1 AddingData to Solr**:通过SolrJ向Solr添加数据的方法。 - **4.2.2 Directly adding POJOsto Solr**:直接将Java对象转换为Solr文档并存储。 - **4.2.3 ReadingData from Solr**:从Solr读取数据的方法。...
4.2.1 Adding Data to Solr 4.2.2 Directly adding POJOs to Solr 4.2.3 Reading Data from Solr **五、Solr的实际应用测试报告** 5.1 线下压力测试报告 5.2 线上环境运行报告 **六、Solr性能调优** 6.1 Schema ...
Paoding是一个高效的中文分词器,同样可以集成到Solr中。 1. 下载Paoding插件。 2. 配置schema.xml中的Analyzer以使用Paoding。 **2.3 多核(MultiCore)配置** - **2.3.1 MultiCore的配置方法** 多核配置可以让...
- **2.2.2 paoding**:paoding是一款高性能的中文分词工具,同样适用于Solr,支持自定义词典和多种分词模式。 **2.3 多核(MultiCore)配置** - **2.3.1 MultiCore的配置方法**:在Solr中可以配置多个核心,每个...
不同的分析器适用于不同语言和应用场景,例如英文和中文的分词规则有很大差异。 3. **查询解析**:Lucene提供了一个强大的查询解析系统,可以将用户输入的自然语言查询转换为可以执行的搜索表达式。`QueryParser`类...
此外,Lucene 还有许多基于它的衍生项目,如Solr和Elasticsearch,它们在Lucene的基础上提供了更高级的服务,如分布式搜索、集群管理等。 六、学习与实践 了解并掌握 Lucene 4.2.1 需要深入学习其基本概念和API,...
- **4.2.1 AddingData to Solr**:如何使用Solrj添加数据到索引。 - **4.2.2 Directly adding POJOs to Solr**:如何直接将Java对象转换为Solr文档。 - **4.2.3 Reading Data from Solr**:如何从Solr检索数据。 ##...
- 本章详细介绍了自然语言处理技术在搜索引擎中的应用,包括中文分词、关键词提取、自动摘要等多个方面。 #### 六、索引库创建与管理 **6.1 设计索引库结构** - **6.1.1 理解Lucene的索引库结构** - Lucene索引...
搜索:solr集群(solrCloud),配合zookeeper搭建, 使用spring-data-solor 缓存:redis集群,使用spring-data-redis 图片存储:fastDFS集群 网页静态化:freemarker 单点登录:cas 权限管理:SpringSecurity, 跨域...