`
hot66hot
  • 浏览: 460118 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Sphinx使用及近实时索引实现

阅读更多
Sphinx介绍

  Sphinx是由一个开源的全文检索引擎,功能类似Lucune,用C++编写,可为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成,当前系统内置MySQL和PostgreSQL数据库数据源的支持,也支持从标准输入读取特定格式的XML数据,通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原生支持)

Sphinx特性

    1:Sphinx支持高速建立索引(可达10MB/秒,而Lucene建立索引的速度是1.8MB/秒)
    2:高性能的搜索(在2--4GB的文本数据上,平均每次检索响应时间小于0.1秒)
    3:高扩展性(实测最高可对100GB的文本建立索引,单一索引可包含1亿条记录)
    4:提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法
    5:支持分布式搜索
    6:支持短语搜索
    7:可作为MySQL的存储引擎提供搜索服务
    8:支持布尔、短语、词语相似度等多种检索模式
    9:文档支持多个全文检索字段


系统组成
整个Sphinx系统由多个可执行程序和一套api组成,这里引用Coreseek(一个基于Sphinx的开源检索引擎,提供了良好的中文支持)的一个结构图做个示例



可执行程序

    1:索引建立和维护程序(索引程序indexer)
    2:查询服务程序(后台服务程序searchd)
    3:辅助工具程序(search, spelldump等)

api

    1:应用程序api(包括ruby,C/C++, Python, php, java的程序api)
    2:Mysql的SphinxSE引擎接口
    3:SphinxQL支持

工作流程 
安装好Sphinx后,首先需要根据想要检索的场景来建立对应的配置文件,Sphinx是以sphinx.conf为配置文件,索引与搜索均以这个文件为依据进行,要进行全文检索,首先就要配置好sphinx.conf,告诉sphinx哪些字段需要进行索引,哪些字段需要在where,orderby,groupby中用到。
该文件的结构大致如下:
<![CDATA[source 源名称1{
…
}
index 索引名称1{
source=源名称1
…
}
source 源名称2{
…
}
index 索引名称2{
source = 源名称2
…
}
indexer{
…
}
searchd{
…
}
]]>

从配置文件的组成中我们可以发现Sphinx可以定义多个索引与数据源,不同的索引与数据源可以应用到不同表或不同应用的全文检索方式。
source

以MySQL为例,示范如何配置全量索引的数据源
source poi_name
{
    type            = mysql          ######数据源类型

    sql_host        = localhost           ######mysql主机
    sql_user        = root     ######mysql用户名
    sql_pass        = ************   ######mysql密码
    sql_db          = ***     ######mysql数据库名
    sql_port        = 3306           ######mysql端口

    sql_query_pre       = SET NAMES utf8   ###mysql检索编码,特别要注意这点,很多人中文检索不到是数据库的编码是GBK或其他非UTF8

    sql_query       = \
        SELECT id, poi_name, poi_name as name, branch_name, city_id, district_id, biz_area_id, type_id, level, latitude/1000000 latitude, longitude/1000000 longitude, complain_status, creator_id, create_time, check_status, modify_time, deleted, link_status \
        FROM poi        ####### 获取数据的sql,这里可以指定条件查询进行过滤

    #####以下是用来过滤或条件查询的属性,这里列出的字段将可以进行条件查询,同时不参与全文检索############
    sql_attr_uint       = city_id
    sql_attr_uint       = district_id
    sql_attr_uint       = biz_area_id
    sql_attr_uint       = type_id
    sql_attr_uint       = level
    sql_attr_uint       = complain_status
    sql_attr_uint       = creator_id
    sql_attr_uint       = create_time
    sql_attr_uint       = check_status
    sql_attr_uint       = deleted
    sql_attr_uint       = modify_time
    sql_attr_uint       = link_status
    sql_attr_float      = latitude
    sql_attr_float      = longitude
    sql_attr_string     = poi_name       ####### poi_name字段将不参与全文检索
}


  增量索引的配置与之类似,只不过需要根据增量条件对获取数据进行过滤,这里以时间戳为例(也可以通过对id设置更新记录表等其它方式来设置增量条件)
source poi_name_incr : poi_name
{
    sql_query       = \
        SELECT id, poi_name, poi_name as name, branch_name, city_id, district_id, biz_area_id, type_id, level, latitude/1000000 latitude, longitude/1000000 longitude, complain_status, creator_id, create_time, check_status, modify_time, deleted, link_status \
        FROM poi where create_time > unix_timestamp() - 360
    ...
}

实时索引不需要设置数据源,直接在index里配置为rt即可

index
全量索引的index配置如下,这里没有配置采用外置的分词插件如mmseg等

index poi_name
{
    source          = poi_name     #### 声明索引数据源
    path            = /opt/***/mtpoi/indexfiles/poi_name   #######索引文件存放路径
    docinfo         = extern       #### 文档信息存储方式
    mlock           = 0            #### 缓存数据内存锁定
    morphology      = none         #### 形态学(对中文无效)
    min_word_len        = 1        #### 索引的词最小长度
    charset_type        = utf-8    #### 数据编码
    ngram_len       = 1            #### 对于非字母型数据的长度切割
    ngram_chars     = U+3000..U+2FA1F  #加上这个选项,则会对每个中文,英文字词进行分割
    charset_table   = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F    ##### 字符表,如使用这种方式,则Sphinx会对中文进行单字切分
    html_strip      = 0
}

增量索引的index配置与之类似,只是将数据源及path设置为增量索引的即可

index poi_name_incr
{
    source          = poi_name_incr
    path            = /opt/***/mtpoi/indexfiles/poi_name_incr

    ....
}

实时索引由于不需要设置数据源,配置有些不同
index poi_rt
{
    type               = rt       #### 声明为实时索引
    rt_mem_limit       = 512M
    path               = /opt/***/mtpoi/indexfiles/poi_rt
    charset_type       = utf-8
    charset_table        = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
    ngram_chars        = U+3000..U+2FA1F

    #### 实时索引的条件查询字段 ####
    rt_attr_uint       = city_id
    rt_attr_uint       = district_id
    rt_attr_uint       = biz_area_id
    rt_attr_uint       = type_id
    rt_attr_uint       = level
    rt_attr_uint       = complain_status
    rt_attr_uint       = creator_id
    rt_attr_uint       = create_time
    rt_attr_uint       = check_status
    rt_attr_uint       = deleted
    rt_attr_uint       = modify_time
    rt_attr_uint       = link_status
    rt_attr_float      = latitude
    rt_attr_float      = longitude
    rt_attr_string     = poi_name
    #### 参与全文检索的属性 ####
    rt_field           = poi_name
    rt_field           = branch_name
}


indexer
indexer的配置比较简单,一般来说不需要改动,配置完毕后执行indexer工具重建索引即可

# 重建配置里的全部索引,必须关闭searchd
/usr/local/sphinx-2.1.0/bin/indexer -c /opt/***mtpoi/conf/sphinx.conf.incr --all
# 重建部分索引(poi_name_incr),可指定多个
/usr/local/sphinx-2.1.0/bin/indexer -c /opt/***/mtpoi/conf/sphinx.conf.incr poi_name_incr
# searchd运行过程中更新索引,添加--ratate参数
/usr/local/sphinx-2.1.0/bin/indexer -c /opt/***/mtpoi/conf/sphinx.conf.incr --rotate poi_name


searchd
searchd的配置项里最主要的是监听端口
searchd
{
    listen          = 9346           # 监听端口,api访问端口
    listen          = 9340:mysql41   # SphinxQL访问端口
    log             = /var/sankuai/logs/sphinx_poi_incr/sphinx-searchd.log
    query_log       = /var/sankuai/logs/sphinx_poi_incr/sphinx-query.log
    max_matches     = 10000          # 最大匹配结果,在某些情况下该数值会导致查询不到结果,比如有设置分页项时想获取1w条之后的记录
    query_log_format   = sphinxql    # 日志查询格式化,plain为简单文本格式,这里采用sphinxql以获取更丰富的查询信息
    mysql_version_string   = 5.5.21  # 返回给通过SphinxQL访问的MySQL版本号,目前采用的mysql-connector-java-5.1.15需要设置该值,否则连接时会报错
    ....
}


执行indexer建好索引后,直接启动searchd即可启用Sphinx查询服务
/usr/local/sphinx-2.1.0/bin/searchd -c /opt/***/mtpoi/conf/sphinx.conf.incr
然后通过crontab等方式调用indexer来更新索引文件

SphinxQL
   Sphinx的searchd守护程序从版本0.9.9-rc2开始支持MySQL二进制网络协议,并且能够通过标准的MySQL API访问

$ mysql -P 9306
Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 1
Server version: 0.9.9-dev (r1734)

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql>


    新的访问方法是对原生API的一种补充,原生API仍然可用。事实上,两种访问方法可以同时使用。另外,原生API仍旧是默认的访问方法。MySQL协议支持需要经过额外的配置才能启用。当然这只需要更动一行配置文件,加入一个协议为mysql41的监听器(listener)就可以了:
listen = 9340:mysql41 # SphinxQL访问端口

分布式索引
除了实时索引之外,Sphinx还支持一种特殊的索引方式------分布式索引,分布式检索可以改善查询延迟问题(即缩短查询时间)和提高多服务器、多CPU或多核环境下的吞吐率(即每秒可以完成的查询数)。这对于大量数据(即十亿级的记录数和TB级的文本量)上的搜索应用来说是很关键的。其关键思想是对数据进行水平分区(HP,Horizontally partition),然后并行处理:

    1:在不同服务器上设置Sphinx程序集(indexer和searchd)的多个实例
    2:让这些实例对数据的不同部分做索引(并检索)
    3:在searchd的一些实例上配置一个特殊的分布式索引然后对这个索引进行查询


这个特殊索引只包括对其他本地或远程索引的引用,因此不能对它执行重新建立索引的操作,相反,如果要对这个特殊索引进行重建,要重建的是那些被这个索引被引用到的索引。
当searchd收到一个对分布式索引的查询时,它做如下操作:


    1:连接到远程代理
    2:执行查询 :#(在远程代理执行搜索的同时)对本地索引进行查询;
    3:接收来自远程代理的搜索结果
    4:将所有结果合并,删除重复项
    5:将合并后的结果返回给客户端


在应用程序看来,普通索引和分布式索引完全没有区别。也就是说,分布式索引对应用程序而言是完全透明的,实际上也无需知道查询使用的索引是分布式的还是本地的。<br/> 任一个searchd实例可以同时做为主控端(master,对搜索结果做聚合)和从属端(只做本地搜索)。这有如下几点好处:


    1: 集群中的每台机器都可以做为主控端来搜索整个集群,搜索请求可以在主控端之间获得负载平衡,相当于实现了一种HA(high availability,高可用性),可以应对某个节点失效的情况.
    2: 如果在单台多CPU或多核机器上使用,一个做为代理对本机进行搜索的searchd实例就可以利用到全部的CPU或者核

这里采用前述配置的几种索引做一个简单的分布式索引配置示例
index poi_dist
{
    type        =   distributed            #### 设置为分布式搜索
    local       =   poi_name               #### 设置查询本地全量索引
    local       =   poi_name_incr          #### 设置查询本地增量索引
    local       =   poi_rt                 #### 设置查询本地实时索引
    agent       =   srv24:9340:poi_name    #### 也可以通过agent来进行查询远程全量索引
}

更详细的分布式搜索的相关配置参数比如超时等参考官方文档。


近实时索引实现
在商家数据中心的使用场景中,目前存在一些对实时性要求比较高的检索需求,比如在CRM系统里,对商家的审核状态进行审核(0-&gt;1)后,页面会自动刷新,此时会根据审核状态(1)进行查询,如果实时性不够的话此时会查询不到该数据,而且使用原状态(0)进行查询的时候,依然能查询到,这就要求目前的Sphinx查询能够尽可能的支持实时检索。

rt
如前面介绍,现有的Sphinx是有实时索引这种类型的,但据一些文章说其在大数据量的情况下性能不太好,另外,其初始时是没有数据的,而现有的数据库里已经有大约100w+的数据需要索引,全部采用rt索引看来不是一个好选择
参考:


全量+增量
结合目前MDC中商家数据的实际情况(新增,更新相对较少),可以采用对稳定数据采用全量索引,对发生更新的数据采用增量索引,然后利用distributed的特性来合并查询

index poi_dist
{
    type        =   distributed            #### 设置为分布式搜索
    local       =   poi_name               #### 设置查询本地全量索引
    local       =   poi_name_incr          #### 设置查询本地增量索引
}

增量索引由于数据量少,每次重建索引时耗时不到1s,可以做到5-10s左右更新一次,然后与全量索引进行merge,把增量索引更新到进来。
indexer --merge DSTINDEX SRCINDEX --rotate

这种方案依然存在一些问题:

        1:由于索引合并的间隔问题,如果一条记录被修改了,在还没有执行增量索引合并前,全量索引里依然是修改前的值,而增量索引已更新为修改后的值,这样在通过distributed来进行查询时合并后的结果集可能并不符合预期(有可能查询到修改前的记录)。对这个问题,可以采用API里提供的updateAttributes方法来实时更新索引的值,但Java版本的API目前仅支持对int,long类型的属性进行实时更新;当然也可以采用SphinxQL来进行属性的更新,其依然存在不支持非int,long类型的属性即时更新问题,但由于增量索引可以重建的比较频繁,在索引重建时会将这些非int,long类型的属性修改进行更新,这样对这些属性的索引大约存在5-10s左右的延迟,对int,long属性的修改可以即时索引进来.
         2:由于其不支持即时新增索引项,只能等待增量索引重建时进行更新,所以其对新增记录也存在5-10s左右的延迟


全量+rt+SphinxQL
和全量+增量的方式类似,只不过将增量索引换成直接使用rt索引,然后类似进行merge合并,其好处是可以即时将新增或修改的记录反映到索引中(这里对新增索引必须采用SphinxQL,目前Java版本的API不支持新增索引记录),但对于非int,long类型的属性修改依然没有什么好办法,只能等待执行索引更新时进行更新,但全量索引的更新相对周期比较长,所以相对延迟会比较大。

与Lucene的简单对比

    对Lucene暂时接触不深,简单对比一下:
    1:   Sphinx建索引速度非常的快;Lucene建索引相比Sphinx要差很多,同样建1000w数据,Sphinx2分钟以内,Lucene10分钟多,不过搜索性能上相差不太大
    2:   Sphinx的索引结构必须提前预定义好;Lucene的索引结构是比较自由的
    3:   Sphinx查询中Attribute(属性)的概念,而且Sphinx在启动Searchd的时候会将所有属性加载到内存中;而Lucene则没有,虽然Lucene也有NumericField,但是底层仍然是作为String处理的。这点可能会导致Sphinx比Lucene查询性能上好一些
    4:   Lucene用Java,代码阅读上相对容易
  • 大小: 8.7 KB
分享到:
评论
2 楼 u014714075 2015-09-08  
请问,我这边E级的数据,索引文件创建出来有6G。 启动服务报错。  

FATAL: out of memory (unable to allocate 1494868092 bytes)


1 楼 sunguangran 2014-06-26  
最后一局是在鄙视java 么

相关推荐

    php+mysql+sphinx实现近实时索引

    当数据发生变化时,例如新增、修改或删除记录,这些变化会被同步到Sphinx索引中。 Sphinx是一个高性能的全文搜索引擎,它可以提供比MySQL原生全文搜索更快、更准确的结果。它支持分布式索引、近实时索引更新,以及...

    sphinx使用rt实时索引源码

    在本篇文章中,我们将深入探讨 Sphinx 的实时索引(Real-Time Indexing)功能及其源码实现。 1. **实时索引概述** 实时索引是Sphinx的一项重要特性,它允许我们快速地添加、删除或更新索引中的文档,无需重新构建...

    sql全文索引 sphinx

    SQL全文索引是一种在数据库中实现全文搜索的技术,它允许用户使用自然语言查询数据库,而不仅仅是精确匹配。Sphinx是一个高性能、开源的全文搜索引擎,它为SQL数据库提供了强大的全文索引功能。Sphinx与SQL结合使用...

    sphinx 安装及使用

    ### Sphinx 安装及使用详解 #### 一、Sphinx简介 Sphinx是一款高性能的全文搜索引擎,主要用于提高大型数据集的搜索效率。它能够独立运行,也可以作为应用程序的一部分嵌入到其他软件中。Sphinx主要适用于对性能...

    PHP搜索引擎Sphinx使用教程.zip

    1. **Sphinx搜索引擎**:Sphinx是一款独立的、高性能的全文检索引擎,支持实时索引和千万级数据量的搜索。它的主要特点包括快速的全文索引、准确定位结果、丰富的排序方式以及对多种数据库的支持,如MySQL和...

    sphinx+mysql 安装手册

    2. **近实时搜索**:利用Sphinx的实时索引功能,实现在数据插入后短时间内即可搜索到新数据。 3. **多语言支持**:配置Sphinx支持多种语言,进行跨语言的全文检索。 4. **搜索建议与自动补全**:通过构建额外的索引...

    java 整合 sphinx

    在Java中实现增量检索,需要正确配置Sphinx的`delta`索引,并在数据更新时调用相应的API进行增量更新。 4. **简单配置**: 配置Sphinx通常涉及编辑`sphinx.conf`文件,设置数据源、索引、搜索服务等参数。在Java...

    Sphinx 使用经验分享

    通过Sphinx,可以实现高速索引建立、避免对数据库的LIKE操作以减轻数据库压力,同时对搜索结果进行权重排序,方便前端调用,并降低使用和维护的门槛。 总的来说,Sphinx是一款强大的全文搜索解决方案,尤其适合需要...

    coreseek SPHINX 使用说明及详细介绍

    - **全文搜索**:Sphinx支持对文本进行全文索引,能够在用户输入关键词时快速返回相关结果。 - **布尔查询**:用户可以使用AND、OR、NOT等逻辑操作符进行复杂的查询。 - **短语匹配**:Sphinx可以识别短语查询,提供...

    sphinx的demo

    - Sphinx 还提供了实时索引、分布式搜索、拼写检查、相关性计算等功能,可以根据实际需求进行深入探索。 总之,Sphinx 是一款功能强大的全文搜索引擎,通过学习和掌握它的使用,开发者可以为自己的应用添加高效、...

    sphinx支持discuz包

    4. **实时性**:Sphinx 支持实时索引更新,一旦论坛有新内容发布,搜索结果会立即反映出来。 5. **扩展性**:Sphinx 具有良好的扩展性,可以通过设置多个索引,分别对应不同类型的论坛数据,如主题、帖子、用户资料...

    sphinx检索工具

    Sphinx 可以与 MySQL 数据库紧密集成,实现数据的实时同步。主要通过以下两种方式: 1. **SQL 调用**:Sphinx 提供了一个 SQL 增强接口(SphinxQL),可以直接通过 SQL 查询来操作索引。这使得开发人员可以使用熟悉...

    php 搜索Sphinx

    2. **近实时搜索**:通过实时索引机制,Sphinx能够在数据更新后的短时间内提供搜索结果,满足实时性较高的应用场景。 3. **复杂查询**:Sphinx支持复杂的查询语法,包括布尔运算符、通配符等,使得搜索条件更加灵活...

    sphinx在linux的安装和使用方法

    Sphinx支持多种数据库(如MySQL、PostgreSQL等)以及文件系统等多种数据源,并且可以进行实时索引更新。由于其高效性及灵活性,被广泛应用于网站搜索、文档检索等领域。 #### 二、Sphinx的安装步骤 ##### 2.1 安装...

    sphinx软件包

    1. **实时索引**:Sphinx 支持实时索引,这意味着它可以快速地添加、删除或更新索引中的文档,无需重新构建整个索引。 2. **高效搜索**:Sphinx 使用倒排索引技术,能够快速地进行全文搜索,提供毫秒级的搜索响应...

    Linux下php+sphinx实例

    这需要在PHP代码中添加适当的SQL触发器或事件,以在数据库记录更新时更新Sphinx索引。 7. **测试和优化**: 一旦设置完成,你可以通过PHP页面输入搜索关键词进行测试。根据性能和准确性调整Sphinx配置,如排序方式...

    sphinx 中英文分词检索介绍

    #### 五、如何使用Sphinx及Coreseek的安装 1. **Coreseek简介**:Coreseek是基于Sphinx开发的一个中文全文检索解决方案,专门针对中文环境进行了优化,提供了更优秀的中文分词支持。 2. **安装步骤**: - **下载...

    ha_sphinx for mysql5.5.29

    3. **建立索引**:定期或实时地从MySQL同步数据到Sphinx,生成搜索索引。可以使用`spinxindexer`工具来执行这个过程。 4. **SQL查询集成**:在MySQL查询中,使用`MATCH()`和`AGAINST()`函数进行全文检索,如同普通...

    sphinx安装包,不错的东西

    1. **实时索引**:Sphinx支持实时索引,这意味着新的数据可以即时添加到索引中,几乎无需延迟就能进行搜索。 2. **高性能**:Sphinx设计目标就是提供高速的搜索体验。它的索引速度极快,查询性能也非常优秀。 3. *...

    Laravel开发-laravel-scout-sphinx

    使用`scout:import` Artisan命令可以将模型数据导入到Sphinx索引中。 4. **搜索操作**:Laravel Scout提供了一致的搜索接口,如`-&gt;search()`方法,可以在任何模型上使用,返回的是符合搜索条件的Eloquent查询构建器...

Global site tag (gtag.js) - Google Analytics