`
hipeace87
  • 浏览: 174339 次
  • 性别: Icon_minigender_1
  • 来自: 山东菏泽
社区版块
存档分类
最新评论

ubuntu910下安装coreseek中文全文索引

阅读更多

先下载(**表示版本号)

csft**.tar.gz

mmseg**.tar.gz

放到/root目录下

解压

tar -xzvf csft**.tar.gz
tar -xzvf mmseg**.tar.gz


编译mmseg 安装

cd mmseg*
sudo ./configure --prefix=/usr/local/mmseg
sudo make
sudo make install             

 

错误提示为:css/UnigramCorpusReader.cpp:89: error: 'strncmp' was not declared in this scope
手动修改了src/css/UnigramCorpusReader.cpp
在上面添加了一句

#include <string.h>

cd csf*
sudo ./configure --prefix=/usr/local/coreseek --with-python --with-mysql --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib/

 

没找到mysql
原来是没装mysql dev

sudo apt-get install libmysqlclient15-dev

修改/usr/local/mmseg/include/mmseg/freelist.h这个文件,在上面添加

#include <string.h>

安装完成

cd /usr/local/coreseek/etc
sudo cp sphinx.conf.dist csft.conf
sudo gedit csft.conf

 

现在加入中文搜索的设置

首先,复制mmseg中的data文件夹到你的mmseg的安装目录中,当然,可以不这么做,但是我希望是将有联系的东西放在一起便于查找

sudo cp /root/mmseg**/data/  /usr/local/mmseg/ -R
这里可以根据你的情况设定具体的路径

然后进入刚才的路径,生成字典文件。

cd /usr/local/mmseg/data
运行以下命令生成字典
sudo /usr/local/mmseg/bin/mmseg -u unigram.txt
会生成一个unigram.txt.uni文件,将这个文件改名或者复制为uni.lib在当前文件夹
sudo cp unigram.txt.uni uni.lib

ok,字典弄好了

现在修改csft.conf文件

sudo gedit /usr/local/coreseek/etc/csft.conf
  查找charset_type并修改为charset_type   = zh_cn.utf-8同时添加一行charset_dictpath  = /usr/local/mmseg/data
保存退出,现在向默认的mysql数据库中插入一条中文信息。注意需要utf8_general_ci编码
重建索引
sudo /usr/local/coreseek/bin/indexer --all
好了,现在可以正常查询了,并且返回的也是正常的中文信息。测试一下
sudo /usr/local/coreseek/bin/search 中文测试
呵呵,ok了。。

 

分享到:
评论
1 楼 kqy929 2010-03-23  
Hi,非常感谢你这篇文章,照你说的,我也部署好coreseek.
测试发现,soreseek对词分得还可以。
但是,
例如:“中文测试” 2 hits
但使用“中”进行测试时, 0 hits
怎么整合单个字呢?

相关推荐

    coreseek中文全文索引解决方案

    CoreSeek是一款专为中文环境设计的全文搜索引擎技术,它主要作为MySQL数据库的扩展,提供了高效、精准的全文索引解决方案。在MySQL的基础上,CoreSeek融入了Sphinx全文索引引擎,使得对中文文本的检索性能得到了显著...

    centos 6.5安装coreseek,亲测ok

    在本文中,我们将深入探讨如何在CentOS 6.5操作系统上成功安装CoreSeek,一个基于Sphinx搜索引擎的全文检索引擎。CoreSeek以其高度可定制性、高效性能和丰富的功能特性,广泛应用于各类数据检索场景。 一、CoreSeek...

    Coreseek 全文搜索服务器2.5

    在GPL协议下,Coreseek 全文搜索服务器2.5不仅保持了开源软件的开放性,同时也鼓励社区共享与协作,共同推进搜索技术的发展。 **1. Coreseek 全文搜索服务器的核心特性:** - **高速检索**:Coreseek采用高效的倒排...

    sphinx+coreseek安装配置

    CoreSeek是基于Sphinx的中文分词和全文检索引擎,提供了中文支持和更丰富的功能。它包含了mmseg中文分词算法,能够更好地处理中文的搜索需求。 ### 3. 安装Sphinx 首先,确保系统已安装必要的依赖项,如`libxml2`...

    coreseek4.1 编译安装和实时索引配置

    Coreseek是一款基于Sphinx搜索引擎的中文分词系统,它提供了强大的全文检索功能,广泛应用于各种数据索引和搜索场景。本文将详细介绍如何在Linux环境下编译安装Coreseek 4.1版本,并进行实时索引的配置。 首先,...

    Coreseek3.2.14(Ubuntu14.04以上版本可用)

    由于Ubuntu14.04以上版本的gcc太新了,导致coreseek编译通不过,本人在网络寻找到了一个补丁可用,成功修复了这个问题。这个压缩包是补丁后的。 (严重鄙视那些要分才能下载东西的人,一点贡献精神都没有)

    coreseek4.1 支持拼音索引 win32

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    coreseek安装

    4. **安装mmseg中文分词库**:编译和安装mmseg,它是Coreseek进行中文分词的关键组件。 5. **安装libsphinxclient**:此库是用于连接Sphinx搜索服务的必要组件。 6. **安装PHP Sphinx模块**:从PECL网站下载并编译...

    官网不能下,这里可以下载coreseek-3.2.14-.tar.gz

    Coreseek是一款基于Sphinx搜索引擎的中文分词和全文检索解决方案,它在Sphinx的基础上增加了中文支持,使得在处理中文数据时能有更好的效果。这个压缩包"coreseek-3.2.14-.tar.gz"包含了Coreseek的源代码,允许用户...

    Coreseek在ubuntu系统上补丁

    Coreseek是一款基于全文搜索引擎Sphinx进行二次开发的开源软件,主要在中国大陆地区广泛使用,尤其在网站搜索和大数据处理方面。它提供了丰富的中文处理支持,包括分词、拼音转换等功能,使得在处理中文数据时更加...

    coreseek mysql 索引配置文件 包含增量索引

    coreseek mysql 索引配置文件 增量索引

    CoreSeek安装注意事项

    ### CoreSeek安装注意事项 #### 一、概述 在进行CoreSeek搜索引擎的安装过程中,往往会遇到各种各样的问题,这些问题可能涉及到环境配置、依赖库安装、编译错误等。本文档根据实际安装经验,并结合网络上的参考...

    sql全文索引 sphinx

    SQL全文索引是一种在数据库中实现全文搜索的技术,它允许用户使用自然语言查询数据库,而不仅仅是精确匹配。Sphinx是一个高性能、开源的全文搜索引擎,它为SQL数据库提供了强大的全文索引功能。Sphinx与SQL结合使用...

    coreseek搜索服务1

    CoreSeek是一款开源的全文搜索引擎,它集成了Sphinx搜索服务器和中文分词器,为用户提供高效、精准的全文检索功能。在IT领域,全文搜索引擎对于处理大量数据的快速检索至关重要,尤其在电商、资讯网站等对搜索性能有...

    CoreSeek/Sphinx中文手册

    综上所述,CoreSeek/Sphinx作为一个功能丰富、性能卓越的搜索引擎,它不仅适用于大数据环境下的全文搜索和数据挖掘,而且通过其API和SphinxQL为开发者提供了强大的搜索功能定制能力。无论是作为独立的搜索引擎,还是...

    coreseek-4.1.tar.gz

    CoreSeek是中国的一款开源全文搜索引擎系统,它基于Sphinx搜索引擎进行了二次开发,增加了对中文的支持,提供了更方便的中文分词接口。在这个“coreseek-4.1.tar.gz”压缩包中,你找到了Linux版本的CoreSeek 4.1-...

    wordpress使用coreseek(sphinx)全文索引

    今天wordpress教程网跟大家分享下如何在wordpress中使用高效的全文索引组件coreseek。Coreseek开源中文检索引擎,可以说是Sphinx中文版,因为coreseek加入了中文分词库,大家可以到官网去查看具体介绍:...

    coreseek-3.2.14-win32

    "coreseek-3.2.14-win32" 是一个针对Windows平台的中文全文搜索引擎软件,它是基于开源项目Sphinx的扩展版本。Sphinx是一款强大的、高性能的信息检索服务系统,常用于构建高效的搜索功能。在处理英文文本时,Sphinx...

    coreseek4.1 支持多音字拼音索引第三版

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...

    sphinx/coreseek权威手册中文版

    总的来说,Sphinx/Coreseek权威手册中文版是一本详尽的指南,涵盖了从安装、配置到开发和优化的全过程,是理解和使用Sphinx/Coreseek进行全文检索的宝贵资源。无论你是初学者还是经验丰富的开发者,都能从中受益匪浅...

Global site tag (gtag.js) - Google Analytics