sphinxPHP api全文检索的例子 - xubaoguo - ITeye博客

`

xubaoguo

浏览: 80775 次
性别:
来自: 北京

最近访客更多访客>>

lwg2001s

hyperslaver

huangbye

吴小帅啊

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bosschen：高见。前三分之二写的看懂了。
网站分布式架构
elam：完全不会用VI不过这一条就够蛋疼了c) Insert 的切换 ...
vi命令详解
risezhang：知道移动，查找，替换，删除，差不多平时就够用了。在使用ssh的 ...
vi命令详解
whking2003： yizhihu 写道vi确实是神器，但是真心难学啊难学个屁 ...
vi命令详解
EldonReturn： VI是Linux终端下没有办法的办法。 Windows下，任何 ...
vi命令详解

sphinxPHP api全文检索的例子

博客分类：

sphinx

阅读更多

在sphinx安装目录有一个API目录，里面有三个PHP文件：test.php，test2.php和sphinxapi.php。 sphinxapi.php是sphinx调用接口封装文件，test.php是一个在命令行下执行的查询例子文件，test2.php是一个生成摘要的例子文件。

在命令下行运行test.php（Linux上没有API目录，需要从源程序包中复制api目录至/usr/local/sphinx）

Windows上：
D:\sphinx\bin\release>c:\php5.2\php.exe -c c:\php5.2\php.ini ..\..\api\test.php -i cgfinal CGartLinux上(php在/usr/local/php目录，sphinx.conf在/usr/local/sphinx目录)：

cd /usr/local/sphinx
/usr/local/php/bin/php api/test.php -i cgfinal CGArtSphinx的API查询接口主要有这些内容(其实对照一下sphinxapi.php就清楚了)：

//创建Sphinx的客户端接口对象
$cl = new SphinxClient ();

//设置连接Sphinx主机名与端口
$cl->SetServer('localhost',3312);

//可选，为每一个全文检索字段设置权重，主要根据你在sql_query中定义的字段的顺序，Sphinx系统以后会调整，可以按字段名称来设定权重
$cl->SetWeights ( array ( 100, 1 ) );

//设定搜索模式,SPH_MATCH_ALL,SPH_MATCH_ANY,SPH_MATCH_BOOLEAN,SPH_MATCH_EXTENDED,SPH_MATCH_PHRASE
$cl->SetMatchMode(SPH_MATCH_ALL);

//设定过滤条件$attribute是属性名，相当于字段名（用SPH_MATCH_EXTENDED时），$value是值，$exclude是布尔型，
当为true时，相当于$attribute!=$value，默认值是false
$cl->SetFilter($attribute, $values, $exclude);

//设定group by
//根据分组方法，匹配的记录集被分流到不同的组，每个组都记录着组的匹配记录数以及根据当前排序方法本组中的最佳匹配记录。
//最后的结果集包含各组的一个最佳匹配记录，和匹配数量以及分组函数值
//结果集分组可以采用任意一个排序语句，包括文档的属性以及sphinx的下面几个内部属性
//@id--匹配文档ID
//@weight, @rank, @relevance--匹配权重
//@group--group by 函数值
//@count--组内记录数量
//$groupsort的默认排序方法是@group desc，就是按分组函数值大小倒序排列
$cl->SetGroupBy($attribute, $func, $groupsort);

//设定order by的内容，第一个参数是排序方法名，值有
// SPH_SORT_RELEVANCE,SPH_SORT_ATTR_DESC,SPH_SORT_ATTR_ASC,SPH_SORT_TIME_SEGMENTS,SPH_SORT_EXTENDED
//$sortby的值如"HITS desc"
$cl->SetSortMode(SPH_SORT_EXTENDED, $sortby);

//set count-distinct attribute for group-by queries,$distinct为字符串
$cl->SetGroupDistinct ( $distinct );

//相当于mysql的limit $offset,$limit
$cl->SetLimits($start,$limit)

//$q是查询的关键字，$index是索引名称，当等于*时表查询所有索引
$res = $cl->Query ( $q, $index );$cl->Query()返回的内容print_r后大概是：

Array
(
[error] =>
[warning] =>
[status] => 0
[fields] => Array
(
[0] => title
[1] => contents
[2] => author
)
[attrs] => Array
(
[catalogid] => 1
[addtime] => 2
[edituserid] => 1
[hits] => 1
)
[matches] => Array
(
[380] => Array
(
[weight] => 1
[attrs] => Array
(
[catalogid] => 7
[addtime] => 1112677492
[edituserid] => 1
[hits] => 1470
) )
[599] => Array
(
[weight] => 101
[attrs] => Array
(
[catalogid] => 7
[addtime] => 1115910729
[edituserid] => 1
[hits] => 1749
) )
[850] => Array
(
[weight] => 1
[attrs] => Array
(
[catalogid] => 2
[addtime] => 1118741392
[edituserid] => 1
[hits] => 289
) )
[877] => Array
(
[weight] => 1
[attrs] => Array
(
[catalogid] => 2
[addtime] => 1118898869
[edituserid] => 1
[hits] => 9870
) )
[1040] => Array
(
[weight] => 101
[attrs] => Array
(
[catalogid] => 2
[addtime] => 1120708579
[edituserid] => 1
[hits] => 318
) )
)
[total] => 129
[total_found] => 129
[time] => 0.000
[words] => Array
(
[design] => Array
(
[docs] => 129
[hits] => 265
)
)
)从上面可以看出Query并不能全部取得我们想要的记录内容，比如说Title,Contents字段就没有取出来，根据官方的说明是sphinx并没有连到mysql去取记录，只是根据它自己的索引内容进行计算，因此如果想用sphinxAPI去取得我们想要的记录，还必须将Query的结果为依据去查询MySQL才可以得到最终我们想要的结果集。

test2.php是一个摘要生成的例子文件，如果你的本地机器已装好sphinx，php运行环境，你可以通过浏览器看查看test2.php的运行效果。

假设我要搜索关键词”test”，通过sphinx可以取到搜索结果，在显示搜索结果时，我希望将含有”test”的进行红色或加粗显示，同时，我不希望全部都显示出来，只需要显示一段摘要，就象google或百度那样，搜出来的结果不是全篇显示，只是部分显示，这个就是摘要的作用。

以test2.php中为例，以下是test2.php的代码：

require ( "sphinxapi.php" );
$docs = array
(
"this is my test text to be highlighted, and for the sake of the testing we need to pump its length somewhat",
"another test text to be highlighted, below limit",
"test number three, without phrase match",
"final test, not only without phrase match, but also above limit and with swapped phrase text test as well",
);
$words = "test";
$index = "cgfinal";
$opts = array
(
"before_match" => "<span style='font-weight:bold;color:red'>",
"after_match" => "</span>",
"chunk_separator" => " ... ",
"limit" => 60,
"around" => 3,
);

foreach ( array(0,1) as $exact )
{
$opts["exact_phrase"] = $exact;
print "exact_phrase=$exact\n";

$cl = new SphinxClient ();
$res = $cl->BuildExcerpts ( $docs, $index, $words, $opts );
if ( !$res )
{
die ( "ERROR: " . $cl->GetLastError() . ".\n" );
} else
{
$n = 0;
foreach ( $res as $entry )
{
$n++;
print "n=$n, res=$entry<br/>";
}
print "\n";
}
}在IE上运行的效果是：

在实际环境中，上面代码的$docs是我们用sphinx搜索出来的结果，这个结果利用BuildExcerpts方法可以实现摘要的功能。

采用SphinxSE方式调用Sphinx

采用sphinxSE必须要求为mySQL安装sphinxSE Engine驱动，方法在第1节中我已讲到

要创建一张sphinx 专用表，你可以这样建

CREATE TABLE `sphinx` (
`id` int(11) NOT NULL,
`weight` int(11) NOT NULL,
`query` varchar(255) NOT NULL,
`CATALOGID` INT NOT NULL,
`EDITUSERID` INT NOT NULL,
`HITS` INT NULL,
`ADDTIME` INT NOT NULL,
KEY `Query` (`Query`)
) ENGINE=SPHINX DEFAULT CHARSET=utf8 CONNECTION='sphinx://localhost:3312/cgfinal';警告

注：与一般mysql表不同的是ENGINE=SPHINX DEFAULT CHARSET=utf8 CONNECTION='sphinx://localhost:3312/cgfinal';，这里表示这个表采用SPHINXSE引擎，字符集是 utf8，与sphinx的连接串是'sphinx://localhost:3312/cgfinal，cgfinal是索引名称

根据sphinx官方说明，这个表必须至少有三个字段，字段起什么名称无所谓，但类型的顺序必须是integer,integer,varchar，分别表示记录标识document ID,匹配权重weight与查询query，同时document ID与query必须建索引。另外这个表还可以建立几个字段，这几个字段的只能是integer或TIMESTAMP类型，字段是与sphinx的结果集绑定的，因此字段的名称必须与在sphinx.conf中定义的属性名称一致，否则取出来的将是Null值。

比如我在上面有定义了sql_attr_uint= CATALOGID，sql_attr_uint= EDITUSERID，sql_attr_uint = HITS，sql_attr_timestamp = ADDTIME，那么在这个表里头，你就可以再定义CATALOGID,EDITUSERID,HITS,ADDTIME四个字段。

通过sql语句实现查询。通过select * from sphinx where query='sphinx表达式' 的方式可以实现查询，通过让sphinx表与eht_articles或其他表并联查询（条件是sphinx.id= eht_articles.Articlesid）还可以实现更为复杂的sql，基本上可以符合我们日常的要求。

sphinx表达式在sphinx的手册中也提到了，这里我简单说明几条：

query='关键字' ，关键字就是你要搜索的关键字，如query='CGArt'表示你要全文搜索CGArt
mode，搜索模式，值有：all,any,phrase,boolean,extended，默认是all
sort，排序模式，必须是relevance,attr_desc,attr_asc,time_segments,extended中的一种，在所有模式中除了relevance外，
属性名（或用extended排序）前面都需要一个冒号。
... where query='test;sort=attr_asc:hits';
... where query='test;sort=extendedweight desc,hits asc';
offset，结果记录集的起始位置，默认是0
limit，从结果记录集中取出的数量，默认是20条
index，要搜索的索引名称
... where query='test;index=cgfinal';
... where query='test;index=test1,test2,test3;';
minid,maxid，匹配最小与最大文档ID
weights，以逗号分割的分配给sphinx全文检索字段的权重列表
... where query='test;weights=1,2,3;';
filter,!filter，以逗号分隔的属性名与一堆要匹配的值
#只包括1,5,19的组
... where query='test;filter=group_id,1,5,19;';
#不包括3,11的组
... where query='test;!filter=group_id,3,11';
range,!range，逗号分隔的属性名一最小与最大要匹配的值
#从3至7的组
... where query='test;range=group_id,3,7;';
#不包括从5至25的组
... where query='test;!range=group_id,5,25;';
maxmatches，每个查询最大匹配的值
... where query='test;maxmatches=2000;';
groupby，group by 方法与属性
... where query='test;groupby=day:published_ts;';
... where query='test;groupby=attr:group_id;';
groupsort，group by 的排序
... where query='test;gropusort='@count desc';需要注意的重要一点是让sphinx进行排序，过滤，切分结果记录集比用MySQL的where,orderby 和limit将有更好的效率。有两个原因，首先sphinx做了很多优化，在这些任务上它比mySQL做得更出色，其次searchd在打包， sphinxSE在传输与解包上需要的数据量更少。

你可以通过运用join在sphinxSE的搜索表和其他引擎类型的表做并联查询。这有一个从example.sql中documents表的例子：

mysql> SELECT content, date_added FROM test.documents docs
-> JOIN t1 ON (docs.id=t1.id)
-> WHERE query="one document;mode=any";
+-------------------------------------+---------------------+
| content | docdate |
+-------------------------------------+---------------------+
| this IS my test document number two | 2006-06-17 14:04:28 |
| this IS my test document number one | 2006-06-17 14:04:28 |
+-------------------------------------+---------------------+
2 rows IN SET (0.00 sec)

mysql> SHOW ENGINE SPHINX STATUS;
+--------+-------+---------------------------------------------+
| Type | Name | STATUS |
+--------+-------+---------------------------------------------+
| SPHINX | stats | total: 2, total found: 2, time: 0, words: 2 |
| SPHINX | words | one:1:2 document:2:2 |
+--------+-------+---------------------------------------------+
2 rows IN SET (0.00 sec)8. SphinxSE的SQL查询例子演练

从eht_articles中查询标题含有“动画”关键字的记录。

SELECT c.* FROM eht_articles AS c,sphinx AS t WHERE c.articlesid=t.id AND query='@title 动画;mode=extended'提示

说明：要指定某个字段进行搜索，要用@字段名+空格+关键字+分号+mode=extended 如果不指定字段，则系统会对TITLE,CONTENTS进行搜索，对什么字段进行全文检索取决于在sphinx.conf中sql_query定义的select 中的字段（文本类型）

从eht_articles中查询文章内容或标题含有“CGArt”关键字的记录。

SELECT c.* FROM eht_articles AS c,sphinx AS t WHERE c.articlesid=sphinx.id AND query='动画'若AUTHOR,TITLE,CONTENTS三个字段都全文索引了，但只想搜title,或contents中含有“动画”关键字的文章

SELECT c.* FROM eht_articles AS c,sphinx AS t WHERE c.articlesid=t.id AND query='@title 动画 | @contents 动画;
mode=extended'查询标题含有“动画”关键字，catalogid为7，edituserid为1的记录

SELECT c.* FROM eht_articles AS c,sphinx AS t WHERE c.articlesid=t.id AND query='@title 动画;
filter=edituserid,1;filter=catalogid,7;mode=extended'提示

采用filter=字段名称,值就相当于where中的字段名=值，filter提到的字段必须在sphinx的source部分的字段属性定义中定义，如

sql_attr_uint = CATALOGID
sql_attr_uint = EDITUSERID
sql_attr_uint = HITS
sql_attr_timestamp = ADDTIME查询标题含有“动画”关键字，按人气Hits从大至小，栏目ID从大至小排序

SELECT c.* FROM eht_articles AS c,sphinx AS t WHERE c.articlesid=t.id AND query='@title 动画;mode=extended;
sort=extended:hits desc,catalogid desc'在sphinx中，select出来的内容是按weight从大至小排序的，weight是根据sphinx内部一定的算法算出来的，越大就表示越匹配，如果想按匹配度从大至小排序，则可以：

SELECT c.* FROM eht_articles AS c,sphinx AS t WHERE c.articlesid=t.id AND query='@title 动画;mode=extended;
sort=@weight desc'搜内容或标题含有优秀或Icon或设计，按catalogid分组，按匹配度从高至低排序

SELECT t.*,c.* FROM eht_articles AS c,sphinx AS t WHERE c.articlesid=t.id AND query='优秀 | Icon | 设计;
mode=extended;groupby=attr:catalogid;groupsort=@weight;'9. 如何自动重建索引

10. 相关资源

用php构建自定义搜索引擎官方手册文档本文中提到的sphinx.conf配置文件(用GBK编码查看)

分享到：

php 正则模式修正符 | php的优缺点

2012-06-19 09:29
浏览 1230
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Sphinx v3.3.1全文检索引擎 for Windows_支持分布式搜索.zip: Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。 Sphinx 单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建...

基于PHP的Sphinxphp全文检索引擎forLinux源码.zip: 标题中的“基于PHP的Sphinxphp全文检索引擎forLinux源码.zip”指的是一个使用PHP语言开发的、适用于Linux操作系统的全文检索引擎——Sphinx。Sphinx是一款高效、强大的开源搜索引擎，设计用于处理大量数据，提供快速...

Sphinxphp全文检索引擎forLinuxv2.0.6: Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,...

Sphinx全文检索引擎 for Windows v2.0.6: Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。 Sphinx 单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建...

Sphinx基于SQL的全文检索引擎简介: 7. **丰富的API和集成**：Sphinx提供了多种编程语言的API，如Python、PHP、Java等，方便开发者将Sphinx集成到自己的应用中。此外，还有许多开源项目，如Elasticsearch、Xunsearch等，直接集成了Sphinx作为其核心搜索...

sphinx 中英文分词检索介绍: Sphinx是一款高性能的全文检索引擎，能够显著提升在大型数据库中进行全文检索的速度。它最初由Andrew Aksyonoff设计并开发，旨在解决MySQL数据库在处理大量文本数据时全文检索效率低下的问题。通过与MySQL集成，...

Python-ABlog是一个Sphinx全文检索引擎的扩展: 【Python-ABlog：Sphinx全文检索引擎的扩展】 ABlog是Python开发中的一款强大工具，专门为Sphinx文档系统提供博客功能的扩展。Sphinx是一款广泛使用的文档生成器，尤其在编写技术文档时表现优秀。而ABlog则进一步...

Sphinx全文检索引擎 for Windows v2.0.6.zip: Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。 Sphinx 单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建...

基于PHP的Sphinx php全文检索引擎 for Linux.zip: 这个“基于PHP的Sphinx php全文检索引擎 for Linux.zip”压缩包很可能是包含了在Linux环境下使用PHP与Sphinx进行全文检索所需的所有文件和配置。首先，Sphinx的核心功能是全文索引，它能够对文本进行预处理，包括...

sphinx全文检索引擎: sphinx全文检索引擎

Sphinx全文检索引擎php版forWindowsv2.0.6: Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,...

PHP实例开发源码—Sphinx全文检索引擎php版 for Windows.zip: 【标题】"PHP实例开发源码—Sphinx全文检索引擎php版 for Windows"是一个针对Windows平台的PHP开发实例，它整合了Sphinx全文搜索引擎，旨在帮助开发者理解和运用Sphinx进行PHP项目的全文检索功能构建。【Sphinx...

PHP实例开发源码—Sphinx php全文检索引擎 for Linux.zip: 在本资源中，我们关注的是一个专为Linux系统设计的PHP全文检索引擎——Sphinx。Sphinx是一款高效、可扩展的开源全文搜索引擎，它能够与PHP紧密结合，为Web应用程序提供强大的搜索功能。以下是对Sphinx及其与PHP集成...

Sphinx全文检索引擎 for Linux v2.0.6: Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。 Sphinx 单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建...

基于PHP的Sphinx全文检索引擎php版 for Windows.zip: 标题 "基于PHP的Sphinx全文检索引擎php版 for Windows.zip" 暗示了这是一个针对Windows操作系统的Sphinx全文搜索引擎的PHP接口版本。Sphinx是一个开源的、高性能的全文搜索引擎，广泛应用于网站内容搜索和数据索引。...

sphinx全文检索: Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,...

全文检索案例: 全文检索是一种在海量数据中快速查找特定文本信息的技术，它广泛应用于搜索引擎、文档管理系统、邮件过滤等多个领域。在这个“全文检索案例”中，我们将探讨如何实现一个简单的全文检索系统，涉及的关键技术包括索引...

Sphinx 全文检索实践指南 - 介绍.pdf: 51CTO技术沙龙第19期讲义：Sphinx 全文检索实践指南主讲：李沫南部分主要内容：全文检索 VS 数据库检索SELECT * FROM documents WHERE title like '%test%'CPU 100%'30秒内只能进行一次查询'没有找到记录......

基于PHP的Sphinx全文检索引擎php版forWindows源码.zip: 标题中的“基于PHP的Sphinx全文检索引擎php版forWindows源码.zip”表明这是一个用于Windows操作系统的PHP版本的Sphinx全文检索引擎的源代码包。Sphinx是一个高性能、可扩展的全文搜索引擎，常用于Web应用中，以提供...

Lucene.Net 实现全文检索: 它提供了一套高级文本搜索程序库，让开发者能够在 .NET 应用程序中轻松实现全文检索功能。在本案例中，我们将在 .Net MVC4 框架上使用 Lucene.Net 来构建一个全文检索系统。首先，我们需要理解全文检索的基本概念...

Global site tag (gtag.js) - Google Analytics