`
lzj0470
  • 浏览: 1273667 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Sphinx在windows下安装使用

阅读更多

前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统。网上的资料大多是在linux环境下的安装使用,当然,作为生产环境很有必要部署在*nix环境下,作为学习测试,还是windows环境比较方便些。

本文旨在提供一种便捷的方式让Sphinx在windows下安装配置以支持中文全文检索,配置部分在linux下通用。

一、关于Sphinx

Sphinx 是一个在GPLv2 下发布的一个全文检索引擎,商业授权(例如, 嵌入到其他程序中)需要联系作者(Sphinxsearch.com)以获得商业授权。

一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。

 

当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原生支持)。

搜索API支持PHP、Python、Perl、Rudy和Java,并且也可以用作MySQL存储引擎。搜索API非常简单,可以在若干个小时之内移植到新的语言上。

Sphinx特性:

  • 高速的建立索引(在当代CPU上,峰值性能可达到10MB/秒);
  • 高性能的搜索(在2–4GB的文本数据上,平均每次检索响应时间小于0.1秒);
  • 可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);
  • 提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  • 支持分布式搜索;
  • 提供文件的摘录生成;
  • 可作为MySQL的存储引擎提供搜索服务;
  • 支持布尔、短语、词语相似度等多种检索模式;
  • 文档支持多个全文检索字段(最大不超过32个);
  • 文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  • 停止词查询;
  • 支持单一字节编码和UTF-8编码;
  • 原生的MySQL支持(同时支持MyISAM和InnoDB);
  • 原生的PostgreSQL支持.

中文手册可以在这里 获得,感谢译者 的辛勤工作。

二、Sphinx在windows上的安装

1.直接在http://www.sphinxsearch.com/downloads.html 找到最新的windows版本,我这里下的是Win32 release binaries with MySQL support ,下载后解压在D:sphinx目录下;

2.在D:\sphinx下新建一个data目录用来存放索引文件,一个log目录方日志文件,复制D:\sphinx\sphinx.conf.in到D:\sphinx\bin\sphinx.conf(注意修改文件名);

3.修改D:\sphinx\bin\sphinx.conf,我这里列出需要修改的几个:

type        = mysql # 数据源,我这里是mysql
sql_host    = localhost # 数据库服务器
sql_user    = root # 数据库用户名
sql_pass    = '' # 数据库密码
sql_db      = test # 数据库
sql_port    = 3306 # 数据库端口
sql_query_pre   = SET NAMES utf8 # 去掉此行前面的注释,如果你的数据库是uft8编码的
index test1
{
# 放索引的目录
 path   = D:/sphinx/data/
# 编码
 charset_type  = utf-8
 #  指定utf-8的编码表
 charset_table  = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
 # 简单分词,只支持0和1,如果要搜索中文,请指定为1
 ngram_len    = 1
# 需要分词的字符,如果要搜索中文,去掉前面的注释
 ngram_chars   = U+3000..U+2FA1F
}
# index test1stemmed : test1
# {
 # path   = @CONFDIR@/data/test1stemmed
 # morphology  = stem_en
# }

# 如果没有分布式索引,注释掉下面的内容

# index dist1
# {
 # 'distributed' index type MUST be specified
 # type    = distributed
 # local index to be searched
 # there can be many local indexes configured
 # local    = test1
 # local    = test1stemmed
 # remote agent
 # multiple remote agents may be specified
 # syntax is 'hostname:port:index1,[index2[,...]]
 # agent    = localhost:3313:remote1
 # agent    = localhost:3314:remote2,remote3
 # remote agent connection timeout, milliseconds
 # optional, default is 1000 ms, ie. 1 sec
 # agent_connect_timeout = 1000
 # remote agent query timeout, milliseconds
 # optional, default is 3000 ms, ie. 3 sec
 # agent_query_timeout  = 3000
# }
# 搜索服务需要修改的部分
searchd
{
 # 日志
 log     = D:/sphinx/log/searchd.log
 # PID file, searchd process ID file name
 pid_file   = D:/sphinx/log/searchd.pid
 # windows下启动searchd服务一定要注释掉这个
 # seamless_rotate  = 1
}

4.导入测试数据

C:\Program Files\MySQL\MySQL Server 5.0\bin>mysql -uroot test<d:/sphinx/example.sql

5.建立索引

D:sphinxbin>indexer.exe –all
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff

using config file ‘./sphinx.conf’…
indexing index ‘test1′…
collected 4 docs, 0.0 MB
sorted 0.0 Mhits, 100.0% done
total 4 docs, 193 bytes
total 0.101 sec, 1916.30 bytes/sec, 39.72 docs/sec

D:sphinxbin>

6.搜索’test’试试

D:sphinxbin>search.exe test
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff

using config file ‘./sphinx.conf’…
index ‘test1′: query ‘test ‘: returned 3 matches of 3 total in 0.000 sec

displaying matches:
1. document=1, weight=2, group_id=1, date_added=Wed Nov 26 14:58:59 2008
        id=1
        group_id=1
        group_id2=5
        date_added=2008-11-26 14:58:59
        title=test one
        content=this is my test document number one. also checking search within
 phrases.
2. document=2, weight=2, group_id=1, date_added=Wed Nov 26 14:58:59 2008
        id=2
        group_id=1
        group_id2=6
        date_added=2008-11-26 14:58:59
        title=test two
        content=this is my test document number two
3. document=4, weight=1, group_id=2, date_added=Wed Nov 26 14:58:59 2008
        id=4
        group_id=2
        group_id2=8
        date_added=2008-11-26 14:58:59
        title=doc number four
        content=this is to test groups

words:
1. ‘test’: 3 documents, 5 hits
D:sphinxbin>

都所出来了吧。

6.测试中文搜索

修改test数据库中documents数据表,

UPDATE `test`.`documents` SET `title` = ‘测试中文’, `content` = ‘this is my test document number two,应该搜的到吧’ WHERE `documents`.`id` = 2;

重建索引:

D:sphinxbin>indexer.exe –all

搜索’中文’试试:

D:sphinxbin>search.exe 中文
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff

using config file ‘./sphinx.conf’…
index ‘test1′: query ‘中文 ‘: returned 0 matches of 0 total in 0.000 sec

words:
D:sphinxbin>

貌似没有搜到,这是因为windows命令行中的编码是gbk,当然搜不出来。我们可以用程序试试,在D:sphinxapi下新建一个foo.php的文件,注意utf-8编码

<?php
require ’sphinxapi.php’;
$s = new SphinxClient();
$s->SetServer(’localhost’,3312);
$result = $s->Query(’中文’);
var_dump($result);
?>

启动Sphinx searchd服务

D:sphinxbin>searchd.exe
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff

WARNING: forcing –console mode on Windows
using config file ‘./sphinx.conf’…
creating server socket on 0.0.0.0:3312
accepting connections

执行PHP查询:

php d:/sphinx/api/foo.php

结果是不是出来?剩下的工作就是去看手册,慢慢摸索高阶的配置
####################
个人心得
同时可以建立sphinx引擎,直接在 mysql中查询结果,不需要调用相应的api
引擎按照请参照官方网站 http://www.sphinxsearch.com/downloads.html

分享到:
评论

相关推荐

    Sphinx 在 windows 下安装使用.docx

    Sphinx在Windows下的安装和配置虽然相对于Linux可能稍显复杂,但仍然为开发者提供了一种方便的本地开发环境。其强大的全文检索功能和多种语言支持使其成为在多个平台上实现高效搜索功能的理想选择。

    Sphinx在Windows下安装使用[支持中文全文检索]-搜索引擎技术

    前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统。...本文旨在提供一种便捷的方式让Sphinx在windows下安装配置以支持中文全文检索,配置部分在linux下通用。

    Windows下安装使用Sphinx

    ### Windows 下安装使用 Sphinx #### 一、Sphinx 概述 Sphinx 是一款由俄罗斯开发者 Andrew Aksyonoff ...通过以上步骤,你可以成功地在 Windows 环境下安装并使用 Sphinx,为你的应用程序提供强大的全文搜索功能。

    pocketsphinx在windows下的中文语音识别Demo

    标题中的“pocketsphinx在windows下的中文语音识别Demo”表明了本文将关注如何在Windows操作系统中使用开源项目Pocketsphinx进行中文语音识别的演示。Pocketsphinx是一个轻量级的语音识别引擎,尤其适用于嵌入式系统...

    Sphinx 在WINDOWS和LINUX下安装入门与测试实例

    在安装和配置完 Sphinx 后,你可以将其导入到你的数据库中,作为创建索引的数据源。假设这个文件包含一个 `documents` 表,表中有文章标题、内容等字段,你可以将这些字段配置为索引的字段,并通过 `indexer` 创建...

    windows下sphinx PHP5.5扩展

    在Windows环境下安装Sphinx的PHP扩展,可以使得PHP应用程序能够方便地与Sphinx服务器进行交互,实现高效的全文检索。 在Windows上安装Sphinx PHP5.5扩展,首先需要确保你的开发环境已经配置了PHP5.5版本。这个扩展...

    sphinx 的安装及使用 windws centos coreseek

    在描述中提到了一个博文链接,虽然具体内容没有给出,但可以推测博主“sinykk”分享了他在安装和配置Sphinx以及与Coreseek集成过程中的经验。由于没有实际的博文内容,我将基于一般流程来解释Sphinx的安装和使用。 ...

    sphinx-3.0.1-7fec4f6-windows-amd64

    这使得用户能够在Windows环境下快速安装和使用Sphinx,无需自行编译源代码。 在使用Sphinx时,开发者通常会创建一个名为`conf.py`的配置文件,用来定义文档结构、主题样式、引用链接等设置。此外,他们还会编写`....

    windows 下 mssql sphinx 增量索引配置文件

    windows 下 sphinx 增量索引配置文件 mssql

    windows版的语音识别支持库 cmu sphinxbase

    2. **模型训练**:虽然SphinxBase提供了一些预训练的模型,但在特定应用场景下,可能需要根据自己的语音数据进行模型的定制和训练。 3. **错误调试**:在开发过程中,可能会遇到各种错误,如音频读取问题、模型匹配...

    window 下sphinx 2.2.11安装 及coreseek3.1 安装包及安装说明 ,简单php调试

    以上是关于在Windows环境下安装Sphinx 2.2.11和CoreSeek 3.1,以及使用PHP进行简单调试的基本流程。整个过程需要对服务器配置、数据库操作和编程有一定了解,希望这个指南能帮助初学者顺利搭建全文索引系统。

    语音识别 sphinx4 JAVA 教程

    在Java环境下使用Sphinx-4,首先需要下载并解压Sphinx-4的源代码包,然后通过构建工具如Maven或Gradle进行编译。确保你的开发环境中已安装Java JDK,并配置好环境变量。Sphinx-4的配置文件(通常是config.xml)需要...

    sphinx-2.1.8

    在本文中,我们将深入探讨 Sphinx 的核心功能、安装过程、使用方法以及其在2.1.8版本中的特性。 首先,让我们了解一下 Sphinx 的基本概念。Sphinx 是基于 ReStructuredText(ReST)语法的,这是一种简洁易读的文本...

    sphinx-for-chinese windows

    在 **Windows** 平台上,Sphinx for Chinese 提供了便于安装和使用的 win32 版本,如压缩包中的 `sphinx-for-chinese-2.2.1-dev-r4311-win32` 文件,这使得在 Windows 系统上搭建和配置全文搜索环境变得更加简单。...

    Sphinx搜索引擎架构与使用文档(和MySQL结合)

    Sphinx搜索引擎架构与使用文档(和MySQL结合)

    sphinx-3.4.1-efbcc65-windows-amd64.zip

    1. **安装**: 在 Windows 上,你可以通过 pip(Python 的包管理器)来安装 Sphinx-3.4.1:`pip install sphinx==3.4.1` 2. **配置**: 创建一个名为 `conf.py` 的配置文件,设置输出格式、路径、主题等选项。 3. **...

    sphinx-3.0.3-facc3fb-windows-amd64.zip

    Sphinx是一款广泛应用于文档生成和自动API文档编写的开源工具,尤其在Python社区中非常流行。...使用"Sphinx-3.0.3-facc3fb-windows-amd64.zip"这个压缩包,你可以在Windows环境下轻松开始你的文档编写之旅。

    Sphinx全文检索引擎 for Windows v2.0.6

     Sphinx 单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建索引的速度为:创建100万条记录的索引只需 3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新...

Global site tag (gtag.js) - Google Analytics