http://ayueer.spaces.live.com/blog/cns!9E99E1260983291B!1338.entry
用solr搭建中文搜索应用
因为工作的需要,要搭建一个小型的搜索应用,数据源已经存在了mysql里面,之前的版本是用mysql like做的,这次升级要增强扩展性和性能,添加一些功能上去。
可以选用的方案有几个,
1,在原有的mysql like的基础上扩展,利用mysql的全文查找功能,这方面没有做过,考虑到性能和其它因素,首先排除掉了。
2,套用在公司自己的search机制上,存在的问题是目前的search页面和检索耦合太严重,要套在这个框架中,要定制一些自己的rank和展现的改动比较麻烦,代码看起来有些恐怖。
3,最后决定使用lucene + solr, lucene提供了比较强大的索引检索接口,solr将其封装的很简单,方便各种语言的扩展,不用自己实现基于lucene的api的search server, 提交doc建索引和查询都通过http请求,可以返回xml/json格式的结果,非常的方便。
搭建服务:
1,下载lucene和solr,以及tomcat, 解压将solr下dist中solr.jar放到tomcat/webapps下面命名为solr.war, 拷贝solr目录下example/solr到当前目录或配置tomcat告诉其solr的目录,启动tomcat访问http://localhost:port/solr/admin能够看到solr已经运行了。
2,将使用的中文分词包,我这里选用jesoft的je-analysis.jar放到solr/lib, 配置solr/conf/schema.xml里面加上
<fieldType name="text_chinese" class="solr.TextField">
<analyzer class="jeasy.analysis.MMAnalyzer" />
</fieldType>
3,修改solr/conf/schema.xml中Fields,定制你要检索的域。
4,ibm developerworks上一个solr转php文章中的代码,将http请求和构建doc的xml封装起来用php调用,你可以参考着做其它程序的接口。Apache Lucene quick-start guide
5,这样就搭出了最基础的检索框架,在此之上能做什么要靠你的想象了:)
参考文章:
1, Search smarter with Apache Solr, Part 1- Essential features and the Solr schema
2, Search smarter with Apache Solr, Part 2- Solr for the enterprise
3, Apache Lucene quick-start guide
4, 使用solr搭建你的全文检索-我的知识库
5, http://jesoft.cn je-analysis MMAnalyzer的中文分词。
6, Lucene中文分词-庖丁解牛Paoding Analysis,另一个很赞的分词,开源的哦,相当不错。
7, solr 的主页 http://lucene.apache.org/solr/, 有一个不错的wiki,关于tomcat配置部署和高级faceted search和cache一些高级的功能都可以在这里看到。
分享到:
相关推荐
本文将详细阐述如何利用SOLR搭建一个企业搜索平台,包括所需环境、配置步骤以及中文分词的设置。 一、SOLR搭建企业搜索平台 1. **运行环境** - **运行容器**:Tomcat 6.0.20 - **Solr版本**:apache-solr-1.4.0 ...
标题“lucene简单介绍及solr搭建使用”涉及了两个主要的开源搜索技术:Lucene和Solr。Lucene是Java开发的一个全文检索库,而Solr则是基于Lucene构建的企业级搜索平台,提供了更高级的功能和管理界面。 **Lucene简介...
Solr是中国Apache软件基金会开发的一款高性能、基于Java的全文搜索引擎服务器。它允许用户通过HTTP请求对索引进行...通过理解和应用这些知识,你将能够成功地搭建起一个功能完备的Solr搜索引擎服务,满足各种搜索需求。
对于中文搜索需求,需要配置 Solr 的中文分词器。具体步骤如下: 1. **修改 schema.xml 文件**:打开 `D:\solr\home` 目录下的 schema.xml 文件,增加或修改以下字段类型定义: ```xml ...
### Solr 3.5配置及应用...通过这些步骤,用户可以快速搭建起一个基本的Solr搜索环境,并实现中文分词的支持,这对于初学者来说是非常重要的第一步。随着对Solr更深入的理解,用户还可以探索更多高级特性和应用场景。
### SOLR搭建企业级搜索平台:详尽指南与中文分词集成 #### 一、SOLR概述 SOLR,全称为Search Platform Optimized for Lucene in Java,是Apache Lucene的一个开源全文搜索引擎框架。它能够提供高性能的全文检索...
标题中的“solr搭建搜索”指的是使用Apache Solr来构建一个全文搜索引擎。Solr是Apache软件基金会的一个开源项目,它提供了高性能、可扩展的搜索和分析能力。在本主题中,我们将深入探讨如何搭建Solr搜索环境以及...
Solr是Apache Lucene项目的一个子项目,是一个高性能、基于Java的企业级全文搜索引擎服务器。它提供了分布式搜索、高可用性和可扩展性,广泛应用于各种大数据检索场景。在本资源包中,包含了在Linux环境下搭建Solr所...
在本教程中,我们将深入探讨如何搭建Solr 7.2.1环境,并配置中文分词器IKAnalyzer以支持中文搜索。 首先,我们来了解Solr 7.2.1的安装步骤: 1. **下载Solr**:访问Apache Solr官方网站,下载最新稳定版的Solr,...
描述简单明了:“基于solr的中文搜索引擎框架”,这意味着我们将探讨如何使用Solr来搭建一个能够处理中文数据的搜索引擎。在中文环境下,搜索引擎的构建相比英文环境更具挑战性,因为中文的分词问题、多音字和同义词...
Ik Analyzer是一款开源的、基于Java实现的中文分词器,常用于Solr和Elasticsearch等全文搜索引擎的中文处理。在Solr中使用Ik Analyzer,你需要: 1. 将ik-analyzer解压到Solr的lib目录下。 2. 在schema.xml中定义一...
本文详细介绍了如何在Linux环境下搭建Solr 7.4的单机版和集群版,并配置IK分词器以支持中文搜索。通过以上步骤,用户可以在自己的项目中实现高效的中文文本搜索功能,提高用户体验。同时,Solr的强大扩展性也为未来...
Solr是Apache Lucene项目的一个子项目,是一个高性能、全文本搜索服务器,广泛应用于企业级搜索引擎搭建。在Solr 5.x和6.x版本中,中文分词器扮演着至关重要的角色,它负责将中文文本拆分成有意义的词汇,便于索引和...
搭建Solr服务需要Java环境,推荐在Linux系统中使用Tomcat作为应用服务器进行搭建。搭建步骤包括: - 准备Tomcat压缩包和Solr压缩包。 - 将这两个压缩包上传到Linux系统,并进行解压。 - 将Solr的WAR包复制到Tomcat的...
通过本教程,用户可以系统地学习如何使用Solr搭建企业搜索引擎,并通过一系列实例和方法对Solr搜索引擎进行调优和问题排查。Apache Solr不仅可以帮助企业快速实现搜索功能,还能够通过定制和优化,满足不同企业的...