sphinx tokyocabinet 轻量级搜索框架（1.0）

henry2009

浏览: 94880 次
性别:
来自: 广州

最近访客更多访客>>

wuzijingaip

放牛班的孩子

姜俊881201

Public_zyzm

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

sphinx

TokyoCabinet 框架搜索引擎 MySQL 全文检索

轻量级搜索框架

先介绍一下工具吧：

Sphinx ：Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

下载方式：http://www.sphinxsearch.com/

基于sphinx的coreseek：http://www.coreseek.cn/

中文分词工具：LibMMSeg：http://www.coreseek.cn/opensource/mmseg/

tokyocabinet：在我第一篇博客有详细介绍。

mysql：大家都熟悉的开源数据库。

这个轻量级框架，保守估计，可以支持5线程同时并发搜索，根据我自己测试的结果，tokyocabinet(下称tc )FIFO队列返回10w条数据，只需要10ms，100w条数据要100ms左右。tc的key-value方式缓存，保守估计，100w条数据100ms没问题。

介绍一下流程主要部分吧（看图流程，比较像张宴的“亿万级搜索框架”，老实说当时我看过，只是表面了解一下 | 恕我冒犯，大师级的东东我不是很懂，图片漂亮，但是内部实现，根本是比较模糊的，算是一半原创吧，哈哈）。

1、程序入口会判断用户输入的关键字是否有关键字缓存，如果不存在，就会调用sphinx对mysql数据库进行全文检索。

然后sphinx会吧搜索索引的文档id结果缓存到tc。

我故意把数据库的文本结果缓存到FiFo队列。因为sphinx是不会做文本索引的，所以它返回的知识搜索索引的文档id，也就是数据库主键id（或用户自定义ID），程序必须要吧结果id放到数据库搜索，吧文本结果取出来。虽然mysql根据id返回搜索结果的速度很快，（如果单用int类型id以递增方式查询mysql数据库，每秒可处理1000w数据）。但实际不会这么用。所以文本结果缓存就显得格外重要了。

最后通过FIFO队列，把相同关键字的搜索结果返回到页面现实。

2、当然，如何关键字缓存存在，就会直接从FIFO队列返回搜索结果。

我的想法：

因为知道sphinx的缺陷，所以想尽办法弥补，一个基于mysql的全文检索工具，速度之快，很是让人佩服。

问题总结：

1、简单统计： 用了tc缓存，其实有很大一部分原因是用来做统计。很多搜索引擎，都是用mencache，但是mencache是建立在内存上面的，不释放的话，资源消耗颇大。而tc就不一样，它是写入文本的，缓存数据得以保存。在做简单统计的时候，比如说：

统计"java" 跟"C语言"的用户搜索情况，我可以从tc中读出关键词缓存，知道搜索密度情况。

2、完成复杂统计： 复杂统计的话，必须要定义好，复杂的sql语句，要用到left join这样那样的函数，配置比较麻烦。但问题依然可以解决。（说是这么说，但是具体怎么做头绪还差一丁点~~牵扯到多表查询，性能如何还是要尝试尝试~）

希望看过文章的可以给点意见，我努力完善，献丑啦~~

6
顶

1
踩

分享到：

sphinx tokyocabinet 轻量级搜索框架（2.0 ... | libbz2.a,libz.so导致tokyocabinet make失 ...

2009-09-09 22:49
浏览 2861
评论(2)
查看更多

2 楼 henry2009 2009-09-14

kernaling.wong 写道

其实这几天我也在想关于复杂统计与简单统计的问题，不过基本上已经想明白如何去做了..对了，之前说过的关于sphinx与tokyocabinet的整合应用,我个人更趋向于把tokyocabinet作为一个保存数据库的每一条记录,当sphinx搜索出来的结果再从tokyocabinet中取出,因为要知道sphinx搜索结果只是数据库的ID，要进行复杂与简单统计一定需要知道统计字段的值....

谢谢你的建议，我在2.0有修改

1 楼 kernaling.wong 2009-09-09

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论