`
chii
  • 浏览: 20563 次
社区版块
存档分类
最新评论

php中文全文搜索引擎-coreseek

    博客分类:
  • php
阅读更多

项目需要用到全文搜索引擎,最终选择了coreseek,coreseek是一个基于sphinx的中文全文搜索引擎项目,而单纯的sphinx是不支持中文分词的。

coreseek项目地址:http://www.coreseek.com/    最新版本为3.2.13

 

选择coreseek的原因很简单:

1、很好的中文分词支持

2、文档支持

3、易于安装和配置

4、负载低、响应迅速

5、丰富的搜索结果展现方式(未用到,应该不算)

 

coreseek的不足:

最新的3.2.13版本的sphinx是0.9.9版本的,不支持实时索引,考虑升级sphinx到1.10。

安装

Linux下的安装,请参见 http://www.coreseek.cn/products-install/install_on_bsd_linux/

 

配置

我们所用到的配置很简单,仅仅是对商品名称、属性、说明等文字进行全文索引,并且根据命中率进行排序,下面仅列出部分配置文件内容:

 

source mysql
{
        type                                    = mysql

        sql_host                                =127.0.0.1
        sql_user                                =user
        sql_pass                                =pass
        sql_db                                  =db_name
        sql_port                                =3306
	sql_query_pre		            = SET NAMES utf8

        sql_query                               = SELECT .. from ..
}

index goods
{
        source                  = mysql
        path                    = /usr/local/coreseek/var/data/mysql
        docinfo                 = extern
        mlock                   = 0
        morphology              = none
        min_word_len            = 2
        html_strip                              = 1
        charset_dictpath = /usr/local/mmseg3/etc/
        charset_type            = zh_cn.utf-8
}

... ...

使用

生成索引

/usr/local/coreseek/bin/indexer -c /data0/coreseek/csft.conf --all

 

启动服务

/usr/local/coreseek/bin/searchd -c /data0/coreseek/csft.conf

 

停止服务

/usr/local/coreseek/bin/searchd -c /data0/coreseek/csft.conf --stop

 

php使用

        include('sphinxapi.php');
        $mode = SPH_MATCH_ANY;
        $index = "goods";//索引名称
        $sortMode = SPH_SORT_RELEVANCE;
        $ranker = SPH_RANK_PROXIMITY_BM25;
        $cl = new SphinxClient();
        $cl->SetMatchMode ( $mode );
        $cl->SetRankingMode ( $ranker );
        $cl->SetArrayResult ( true );
        $cl->SetSortMode($sortMode);
        $res    = $cl->Query($keywords, $index);
        if($res) {
            if(!empty($res['matches'])){
                foreach($res['matches'] as $v) {
                    //do something with query result items
                }
            }
        }
分享到:
评论

相关推荐

    站内全文搜索引擎 coreseek

    Coreseek发布了3.2.14版本和4.1版本,其中的3.2.14版本是2010年发布的,它是基于Sphinx0.9.9搜索引擎的。而4.1版本是2011年发布的,它是基于Sphinx2.0.2的。Sphinx从0.9.9到2.0.2还是有改变了很多的,有很多功能,...

    coreseek-3.2.14-win32

    CoreSeek是一款开源的全文搜索引擎系统,它为开发者提供了一个强大的信息检索平台,广泛应用于网站内容搜索、数据挖掘等领域。此版本为"coreseek-3.2.14-win32",是专为Windows 32位操作系统设计的。下面我们将深入...

    coreseek-4.1-win32

    CoreSeek是一款开源的全文搜索引擎服务器,它基于Sphinx技术,为中文用户提供高效、稳定和易用的全文检索解决方案。在Windows环境下,CoreSeek 4.1版本为开发者提供了在Win32平台上搭建搜索服务的便利。这个压缩包...

    基于Sphinx 0.9.8 开发的中文全文搜索引擎Coreseek

    支持Mysql全文搜索,支持PHP开发。 新增如下特性: 修正 2.5.x 系列searchd可能崩溃的Bug 改进 高亮的算法,支持词权重自定义 改进 切分算法,支持必须出现的关键词(仅在简单查询模式下) 本版本为Beta版,...

    Coreseek 全文搜索服务器2.5

    **Coreseek 全文搜索服务器2.5**是一款基于开源全文搜索引擎Sphinx进行修改和增强的产品,它在原生Sphinx的基础上提供了更多的功能和优化,旨在为企业和开发者提供更高效、更灵活的全文检索解决方案。在GPL协议下,...

    coreseek-4.1.zip windows版

    Coreseek是一款开源的全文搜索引擎系统,它主要针对中文环境,为用户提供高效、精确的全文检索功能。这个"coreseek-4.1.zip windows版"是Coreseek的Windows平台版本,适用于那些在Windows操作系统上构建搜索服务的...

    coreseek-4.1 x64 x86合集插件包.zip

    CoreSeek是一款基于Sphinx搜索引擎的开源全文搜索解决方案,它为用户提供高性能、高可扩展性的信息检索服务。在这款名为"coreseek-4.1 x64 x86合集插件包.zip"的压缩包中,包含了适用于64位和32位Windows操作系统的...

    coreseek-3.2.14.tar.gz

    CoreSeek是一个开源全文搜索引擎系统,它基于Sphinx技术,为中文用户提供高效的全文检索服务。Sphinx是一款强大的、快速的全文搜索引擎服务器,广泛应用于网站、数据库搜索以及内容管理系统中。 在CoreSeek 3.2.14...

    coreseek站内搜索

    CoreSeek站内搜索是一款强大的开源搜索引擎,专为中文环境设计,提供高效、可扩展的全文检索功能。它结合了Sphinx搜索引擎的特性,并且支持与MySQL数据库紧密集成,使得数据检索和管理变得更加便捷。在本篇文章中,...

    coreseek-4.1-win32.rar

    1. **CoreSeek介绍**:CoreSeek是基于Sphinx开源全文搜索引擎的中文分词引擎。它集成了MMSEG中文分词算法,提高了对中文文本的处理能力,能够更准确地进行关键词匹配。CoreSeek还支持多种数据源,如MySQL、...

    coreseek-3.2.13.tar.gz

    Coreseek是一款基于Sphinx搜索引擎技术的中文全文检索引擎软件,主要应用于大数据量的全文搜索解决方案。这个"coreseek-3.2.13.tar.gz"文件是一个Linux/Unix平台下的压缩包,包含了Coreseek 3.2.13版本的所有源代码...

    coreseek-4.1.tar.gz

    CoreSeek是中国的一款开源全文搜索引擎系统,它基于Sphinx搜索引擎进行了二次开发,增加了对中文的支持,提供了更方便的中文分词接口。在这个“coreseek-4.1.tar.gz”压缩包中,你找到了Linux版本的CoreSeek 4.1-...

    coreseek41-windows.zip

    CoreSeek41-Windows是一个专为Windows平台设计的全文搜索引擎软件包,主要包含了Sphinx技术,用于高效、精准地处理中文分词和全文检索。Sphinx是一款开源的、高性能的全文检索引擎,最初由俄罗斯开发者开发,现在...

    coreseek-4.1

    CoreSeek是基于Sphinx搜索引擎的一款开源全文检索系统,它提供了对中文的支持,尤其适用于需要大量文本数据处理的项目。在本案例中,我们讨论的是CoreSeek的4.1版本,这是一个针对Windows 64位系统的版本,并且包含...

    coreseek搜索服务1

    CoreSeek是一款开源的全文搜索引擎,它集成了Sphinx搜索服务器和中文分词器,为用户提供高效、精准的全文检索功能。在IT领域,全文搜索引擎对于处理大量数据的快速检索至关重要,尤其在电商、资讯网站等对搜索性能有...

    官网不能下,这里可以下载coreseek-3.2.14-.tar.gz

    Coreseek是一款基于Sphinx搜索引擎的中文分词和全文检索解决方案,它在Sphinx的基础上增加了中文支持,使得在处理中文数据时能有更好的效果。这个压缩包"coreseek-3.2.14-.tar.gz"包含了Coreseek的源代码,允许用户...

    coreseek-4

    CoreSeek 是一个强大的全文搜索引擎平台,它基于开源的Sphinx技术,专为中文环境优化,提供了丰富的API接口和多语言支持。"coreseek-4"很可能是CoreSeek的第四代稳定版本,旨在提供更高效、稳定的搜索服务。下面将...

    sphinx+coreseek安装配置

    Sphinx和CoreSeek是两种强大的全文搜索引擎技术,尤其在处理大量数据的检索和高效率搜索时表现卓越。它们常被用于网站、数据库和其他需要快速、精确搜索功能的应用中。本文将详细介绍如何在Linux环境中安装和配置...

    coreseek3.1.14

    总的来说,CoreSeek3.1.14是一个成熟的全文搜索引擎解决方案,适合需要在大量中文文本中进行快速、精确搜索的应用场景。通过深入理解和定制其源代码,用户可以构建出符合特定需求的搜索引擎系统。

Global site tag (gtag.js) - Google Analytics