项目需要用到全文搜索引擎,最终选择了coreseek,coreseek是一个基于sphinx的中文全文搜索引擎项目,而单纯的sphinx是不支持中文分词的。
coreseek项目地址:http://www.coreseek.com/
最新版本为3.2.13
选择coreseek的原因很简单:
1、很好的中文分词支持
2、文档支持
3、易于安装和配置
4、负载低、响应迅速
5、丰富的搜索结果展现方式(未用到,应该不算)
coreseek的不足:
最新的3.2.13版本的sphinx是0.9.9版本的,不支持实时索引,考虑升级sphinx到1.10。
安装
Linux下的安装,请参见 http://www.coreseek.cn/products-install/install_on_bsd_linux/
配置
我们所用到的配置很简单,仅仅是对商品名称、属性、说明等文字进行全文索引,并且根据命中率进行排序,下面仅列出部分配置文件内容:
source mysql
{
type = mysql
sql_host =127.0.0.1
sql_user =user
sql_pass =pass
sql_db =db_name
sql_port =3306
sql_query_pre = SET NAMES utf8
sql_query = SELECT .. from ..
}
index goods
{
source = mysql
path = /usr/local/coreseek/var/data/mysql
docinfo = extern
mlock = 0
morphology = none
min_word_len = 2
html_strip = 1
charset_dictpath = /usr/local/mmseg3/etc/
charset_type = zh_cn.utf-8
}
... ...
使用
生成索引
/usr/local/coreseek/bin/indexer -c /data0/coreseek/csft.conf --all
启动服务
/usr/local/coreseek/bin/searchd -c /data0/coreseek/csft.conf
停止服务
/usr/local/coreseek/bin/searchd -c /data0/coreseek/csft.conf --stop
php使用
include('sphinxapi.php');
$mode = SPH_MATCH_ANY;
$index = "goods";//索引名称
$sortMode = SPH_SORT_RELEVANCE;
$ranker = SPH_RANK_PROXIMITY_BM25;
$cl = new SphinxClient();
$cl->SetMatchMode ( $mode );
$cl->SetRankingMode ( $ranker );
$cl->SetArrayResult ( true );
$cl->SetSortMode($sortMode);
$res = $cl->Query($keywords, $index);
if($res) {
if(!empty($res['matches'])){
foreach($res['matches'] as $v) {
//do something with query result items
}
}
}
分享到:
相关推荐
Coreseek发布了3.2.14版本和4.1版本,其中的3.2.14版本是2010年发布的,它是基于Sphinx0.9.9搜索引擎的。而4.1版本是2011年发布的,它是基于Sphinx2.0.2的。Sphinx从0.9.9到2.0.2还是有改变了很多的,有很多功能,...
CoreSeek是一款开源的全文搜索引擎系统,它为开发者提供了一个强大的信息检索平台,广泛应用于网站内容搜索、数据挖掘等领域。此版本为"coreseek-3.2.14-win32",是专为Windows 32位操作系统设计的。下面我们将深入...
CoreSeek是一款开源的全文搜索引擎服务器,它基于Sphinx技术,为中文用户提供高效、稳定和易用的全文检索解决方案。在Windows环境下,CoreSeek 4.1版本为开发者提供了在Win32平台上搭建搜索服务的便利。这个压缩包...
支持Mysql全文搜索,支持PHP开发。 新增如下特性: 修正 2.5.x 系列searchd可能崩溃的Bug 改进 高亮的算法,支持词权重自定义 改进 切分算法,支持必须出现的关键词(仅在简单查询模式下) 本版本为Beta版,...
**Coreseek 全文搜索服务器2.5**是一款基于开源全文搜索引擎Sphinx进行修改和增强的产品,它在原生Sphinx的基础上提供了更多的功能和优化,旨在为企业和开发者提供更高效、更灵活的全文检索解决方案。在GPL协议下,...
Coreseek是一款开源的全文搜索引擎系统,它主要针对中文环境,为用户提供高效、精确的全文检索功能。这个"coreseek-4.1.zip windows版"是Coreseek的Windows平台版本,适用于那些在Windows操作系统上构建搜索服务的...
CoreSeek是一款基于Sphinx搜索引擎的开源全文搜索解决方案,它为用户提供高性能、高可扩展性的信息检索服务。在这款名为"coreseek-4.1 x64 x86合集插件包.zip"的压缩包中,包含了适用于64位和32位Windows操作系统的...
CoreSeek是一个开源全文搜索引擎系统,它基于Sphinx技术,为中文用户提供高效的全文检索服务。Sphinx是一款强大的、快速的全文搜索引擎服务器,广泛应用于网站、数据库搜索以及内容管理系统中。 在CoreSeek 3.2.14...
CoreSeek站内搜索是一款强大的开源搜索引擎,专为中文环境设计,提供高效、可扩展的全文检索功能。它结合了Sphinx搜索引擎的特性,并且支持与MySQL数据库紧密集成,使得数据检索和管理变得更加便捷。在本篇文章中,...
1. **CoreSeek介绍**:CoreSeek是基于Sphinx开源全文搜索引擎的中文分词引擎。它集成了MMSEG中文分词算法,提高了对中文文本的处理能力,能够更准确地进行关键词匹配。CoreSeek还支持多种数据源,如MySQL、...
Coreseek是一款基于Sphinx搜索引擎技术的中文全文检索引擎软件,主要应用于大数据量的全文搜索解决方案。这个"coreseek-3.2.13.tar.gz"文件是一个Linux/Unix平台下的压缩包,包含了Coreseek 3.2.13版本的所有源代码...
CoreSeek是中国的一款开源全文搜索引擎系统,它基于Sphinx搜索引擎进行了二次开发,增加了对中文的支持,提供了更方便的中文分词接口。在这个“coreseek-4.1.tar.gz”压缩包中,你找到了Linux版本的CoreSeek 4.1-...
CoreSeek41-Windows是一个专为Windows平台设计的全文搜索引擎软件包,主要包含了Sphinx技术,用于高效、精准地处理中文分词和全文检索。Sphinx是一款开源的、高性能的全文检索引擎,最初由俄罗斯开发者开发,现在...
CoreSeek是基于Sphinx搜索引擎的一款开源全文检索系统,它提供了对中文的支持,尤其适用于需要大量文本数据处理的项目。在本案例中,我们讨论的是CoreSeek的4.1版本,这是一个针对Windows 64位系统的版本,并且包含...
CoreSeek是一款开源的全文搜索引擎,它集成了Sphinx搜索服务器和中文分词器,为用户提供高效、精准的全文检索功能。在IT领域,全文搜索引擎对于处理大量数据的快速检索至关重要,尤其在电商、资讯网站等对搜索性能有...
Coreseek是一款基于Sphinx搜索引擎的中文分词和全文检索解决方案,它在Sphinx的基础上增加了中文支持,使得在处理中文数据时能有更好的效果。这个压缩包"coreseek-3.2.14-.tar.gz"包含了Coreseek的源代码,允许用户...
CoreSeek 是一个强大的全文搜索引擎平台,它基于开源的Sphinx技术,专为中文环境优化,提供了丰富的API接口和多语言支持。"coreseek-4"很可能是CoreSeek的第四代稳定版本,旨在提供更高效、稳定的搜索服务。下面将...
Sphinx和CoreSeek是两种强大的全文搜索引擎技术,尤其在处理大量数据的检索和高效率搜索时表现卓越。它们常被用于网站、数据库和其他需要快速、精确搜索功能的应用中。本文将详细介绍如何在Linux环境中安装和配置...
总的来说,CoreSeek3.1.14是一个成熟的全文搜索引擎解决方案,适合需要在大量中文文本中进行快速、精确搜索的应用场景。通过深入理解和定制其源代码,用户可以构建出符合特定需求的搜索引擎系统。