`
lifei0327
  • 浏览: 33855 次
社区版块
存档分类
最新评论

sphinx

阅读更多
# 1
### 添加到/usr/local/coreseek/etc/csft.conf配置文件
### 需要修改连接的数据库配置 ###
### 需要确认dict的路径配置 ###

source djapp_tag
{
type = pgsql
sql_host = 127.0.0.1
sql_user = postgres
sql_pass = *
sql_db = *
sql_port = 5190

sql_query_pre = SET NAMES 'UTF8'
sql_query_pre = update sph_counter set max_doc_id=(select max(id) from taggit_tag) where id=11
sql_query_pre = update sph_counter set max_doc_id=(select max(id) from taggit_tag) where id=12
sql_query_post =

sql_query_range = SELECT MIN(id),MAX(id) FROM taggit_tag where id<=( SELECT max_doc_id FROM sph_counter WHERE id=11 )
sql_range_step = 10000
sql_query = SELECT id, name, slug from taggit_tag WHERE id>=$start AND id<=$end

}

source daily_djapp:djapp_tag
{
sql_query_pre = SET NAMES 'UTF8'
sql_query_range = SELECT MIN(id),MAX(id) FROM taggit_tag where id>=( SELECT max_doc_id FROM sph_counter WHERE id=11 )
sql_range_step = 10000
sql_query = SELECT id, name, slug from taggit_tag WHERE id>=$start AND id<=$end
sql_query_post_index = update sph_counter set max_doc_id=$maxid where id=11
sql_query_post_index = update sph_counter set max_doc_id=$maxid where id=12
}

source delta_djapp:djapp_tag
{
sql_query_pre = SET NAMES 'UTF8'
sql_query_range = SELECT MIN(id),MAX(id) FROM taggit_tag where id>=( SELECT max_doc_id FROM sph_counter WHERE id=12 )
sql_range_step = 10000
sql_query = SELECT id, name, slug from taggit_tag WHERE id>=$start AND id<=$end
sql_query_post_index = update sph_counter set max_doc_id=$maxid where id=12
}

index djapp_tag
{
source = djapp_tag
path = /usr/local/coreseek/var/data/djapp_tag
docinfo = extern
mlock = 0
morphology = none
stopwords =
min_word_len = 1
html_strip = 0
charset_type = zh_cn.utf-8
charset_dictpath = /usr/local/coreseek/bin/etc/dict
#charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
min_prefix_len = 0
min_infix_len = 1
ngram_len = 1

ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
        U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
        U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
        U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF

}

index daily_djapp:djapp_tag
{
source = daily_djapp
path = /usr/local/coreseek/var/data/daily_djapp
}

index delta_djapp:djapp_tag
{
source = delta_djapp
path = /usr/local/coreseek/var/data/delta_djapp
}


# 2
### 修改以下配置文件,添加 ###
vi /usr/local/coreseek/bin/sphinx-delta.sh
/usr/local/coreseek/bin/indexer delta_djapp --rotate -c /usr/local/coreseek/etc/csft.conf
/usr/local/coreseek/bin/indexer --merge daily_djapp delta_djapp --rotate -c /usr/local/coreseek/etc/csft.conf

vi /usr/local/coreseek/bin/sphinx-daily.sh
/usr/local/coreseek/bin/indexer daily_djapp --rotate -c /usr/local/coreseek/etc/csft.conf
/usr/local/coreseek/bin/indexer --merge djapp_tag daily_djapp --rotate -c /usr/local/coreseek/etc/csft.conf

vi /usr/local/coreseek/bin/sphinx-main.sh
/usr/local/coreseek/bin/indexer djapp_tag --rotate -c /usr/local/coreseek/etc/csft.conf


# 3
### counter 表创建 ###
CREATE TABLE sph_counter(id bigint NOT NULL, max_doc_id bigint NOT NULL, PRIMARY KEY (id));

INSERT INTO sph_counter(id, max_doc_id) VALUES(1, 0);
INSERT INTO sph_counter(id, max_doc_id) VALUES(2, 0);
INSERT INTO sph_counter(id, max_doc_id) VALUES(11, 0);
INSERT INTO sph_counter(id, max_doc_id) VALUES(12, 0);

### 初始化配置 ###
/usr/local/coreseek/bin/searchd

/usr/local/coreseek/bin/indexer --all --rotate

### 当index不存在时可以参考以下命令 ###
/usr/local/coreseek/bin/indexer djapp_tag
/usr/local/coreseek/bin/indexer delta_djapp
/usr/local/coreseek/bin/indexer daily_djapp


# 4
### create tag data for test ###


# 5
/usr/local/coreseek/bin/search -i [index] [search string]


# 6
### 替换sphinx server ip ###
vi /ebs_data/opt/typhoonae/parts/appsengine/t3rdlibs/djangosphinx/models.py
SPHINX_SERVER           = getattr(settings, 'SPHINX_SERVER', 'localhost')


# 7
### 测试 ###

## 7.1
http://192.168.10.147:8080/search

## 7.2
http://192.168.10.147:8080/tests?app=relation

### 确保使用的是t3rdlibs目录下的taggit模块 ###


# 8
### sphinx, tag, invitation 自检 ###
cd /ebs_data/opt/typhoonae/parts/appsengine/tests/simulator
python console.py -m group_share -t send_invitation
python console.py -m user_profile -t self_tag_list
python console.py -m user_profile -t search_tag
python console.py -m user_profile -t self_obj_list_by_tag


# 9
### 发布 ###
vi
self.backend_engine = "http://*:8080"
分享到:
评论

相关推荐

    sphinx中文语音训练手册

    本文档介绍Sphinx4在Windows下的中文训练过程及注意事项,与本文档配套的是我自己的训练实例bergtrain和用到的软件。 本文档编写日期 2013-04-23 1、为什么要训练? sphinx4目前的版本中仅提供了英文等语音识别库。...

    语音识别 sphinx4 JAVA 教程

    【语音识别技术与Sphinx-4简介】 语音识别技术是一种将人类语音转化为机器可理解文本的技术,广泛应用于智能助手、电话交互系统、自动驾驶等领域。Sphinx-4是卡内基梅隆大学(CMU)开发的一个开源语音识别引擎,...

    php7的sphinx扩展,适用linux,mac

    3. 编译并安装扩展:运行`phpize`来配置编译环境,然后执行`./configure --with-sphinx=/path/to/sphinx`,最后使用`make && make install`完成编译和安装。 4. 更新PHP配置:将新安装的Sphinx扩展添加到php.ini文件...

    CMU Sphinx的语音模型

    CMU Sphinx是一款开源的语音识别引擎,主要用于将连续的语音信号转换为文本。这款工具广泛应用于各种领域,如智能家居、语音助手、电话自动服务系统等。CMU Sphinx由卡内基梅隆大学(Carnegie Mellon University)...

    pocketsphinx-android-demo资源包

    《探索pocketsphinx-android-demo:语音识别在Android平台的应用》 在移动设备上,语音识别技术已经成为人机交互的重要组成部分,极大地提升了用户体验。本资源包——"pocketsphinx-android-demo",是专为Android...

    pocketsphinx语音库

    **Pocketsphinx语音库详解** Pocketsphinx是CMU Sphinx项目的一部分,由卡内基梅隆大学(Carnegie Mellon University)开发,是一款强大的、开源的语音识别引擎,主要用于离线语音识别。它专为资源有限的设备设计,...

    pocketsphinx在windows下的中文语音识别Demo

    标题中的“pocketsphinx在windows下的中文语音识别Demo”表明了本文将关注如何在Windows操作系统中使用开源项目Pocketsphinx进行中文语音识别的演示。Pocketsphinx是一个轻量级的语音识别引擎,尤其适用于嵌入式系统...

    sphinx中文包zh-CN.zip

    这个压缩包包含了针对中文语言的特定模型和资源,使得Sphinx能够处理和理解中文语音输入。"zh-CN" 表明这是为中国汉语设计的版本,适应普通话的语音特征。 描述中的链接指向了一个官方的下载源,提供了一个名为 ...

    Sphinx中文手册.pdf

    ### Sphinx中文手册知识点详解 #### 一、简介 **1.1 什么是Sphinx** Sphinx是一款高性能且功能丰富的全文搜索引擎。它专为快速、准确地处理海量文本数据的搜索需求而设计。Sphinx适用于多种应用场景,如网站、...

    sphinx4 中文声学模型、词典、语言模型

    Sphinx4是一款强大的开源Java语音识别引擎,专为实时、高精度的语音处理而设计。在中文环境下,Sphinx4的使用需要特定的声学模型、词典和语言模型,以便能够准确地理解和识别中文语音输入。下面我们将深入探讨这些...

    sphinx3-0.4.1.rar_Sphinx3_c 语音识别

    sphinx系统是一个拥有悠久历史的语音识别系统,李开复自称第一个sphinx是他写的。 传说 中是第一个实用的10数字语音系统。 是由卡奈基.美隆大学研发。 sphinx3.x是基于C语言的最新版本,sphinx和 sphinx2请大家...

    sphinx2.2.10版本tar.gz包

    Sphinx是一款强大的全文搜索引擎软件,尤其在文档管理和网站构建中广泛应用。它以其高效、可扩展性和灵活性著称,被许多大型项目采纳为他们的基础搜索工具。Sphinx 2.2.10是该软件的一个稳定版本,适用于Linux操作...

    CoreSeek/Sphinx中文手册

    CoreSeek/Sphinx是一款强大的开源全文搜索引擎,最初基于俄罗斯数据库公司Altap的数据库搜索引擎技术。它为互联网和企业级应用提供快速、有效的搜索解决方案。Sphinx特别适合处理大量数据和提供实时搜索服务。Sphinx...

    pocketsphinx-android-demo-master.7z

    《Android离线语音识别技术:PocketSphinx详解》 在当今的移动应用开发中,语音识别已经成为一个不可或缺的功能,尤其在智能助手、导航系统以及无障碍应用等领域。然而,大多数在线语音识别服务依赖于网络连接,这...

    sphinx4-5prealpha-src.zip

    Sphinx4是一个强大的开源语音识别框架,主要由Java语言编写,提供了一整套完整的工具和库,用于构建高质量的语音识别系统。这个压缩包“sphinx4-5prealpha-src.zip”包含了Sphinx4的最新预发行版本(5prealpha)的源...

    pocketsphinx库学习用的一个简单的语言模型(lm、dic文件)

    《深入理解Pocketsphinx:基于lm与dic文件的语音识别》 Pocketsphinx是一个轻量级的开源语音识别引擎,广泛应用于嵌入式系统和移动设备。它属于CMU Sphinx项目的一部分,由卡内基梅隆大学开发。Pocketsphinx的设计...

    pocketsphinx、speechrecognition中文语音包.rar

    本文将详细介绍pocketsphinx以及其在中文语音识别中的应用。pocketsphinx是一款开源的、轻量级的语音识别引擎,它主要用于离线语音识别任务,特别适合于资源有限的设备上运行。该软件包是CMU Sphinx项目的一部分,由...

    cmusphinx-zh-cn-5.2.tar.gz

    在Python环境中,我们可以使用`pocketsphinx`,这是`cmusphinx`的一个轻量级版本,专门用于嵌入式设备和服务器。通过`pocketsphinx-python`这个Python绑定库,开发者可以轻松地将`cmusphinx-zh-cn-5.2`模型集成到...

    数据库 搜索引擎 sphinx

    数据库搜索引擎Sphinx是一款高效、可定制且功能丰富的全文搜索引擎,主要设计用于Web应用,以便快速地从大量数据中检索相关信息。Sphinx的核心特性包括实时索引、近实时搜索以及高度可扩展性,使得它在处理大数据量...

    sphinx支持discuz包

    **Sphinx 概述** Sphinx 是一个高性能、全文搜索引擎库,主要被设计用于Web应用,提供快速且精准的搜索功能。它是一个开源项目,由俄罗斯的 Andrew Aksyonov 创建,起初是为了解决其在线教育平台的搜索需求。Sphinx...

Global site tag (gtag.js) - Google Analytics