先下载(**表示版本号)
csft**.tar.gz
mmseg**.tar.gz
放到/root目录下
解压
tar -xzvf csft**.tar.gz
tar -xzvf mmseg**.tar.gz
编译mmseg 安装
cd mmseg*
sudo ./configure --prefix=/usr/local/mmseg
sudo make
sudo make install
错误提示为:css/UnigramCorpusReader.cpp:89: error: 'strncmp' was not declared in this scope
手动修改了src/css/UnigramCorpusReader.cpp
在上面添加了一句
#include <string.h>
cd csf*
sudo ./configure --prefix=/usr/local/coreseek --with-python --with-mysql --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib/
没找到mysql
原来是没装mysql dev
sudo apt-get install libmysqlclient15-dev
修改/usr/local/mmseg/include/mmseg/freelist.h这个文件,在上面添加
#include <string.h>
安装完成
cd /usr/local/coreseek/etc
sudo cp sphinx.conf.dist csft.conf
sudo gedit csft.conf
现在加入中文搜索的设置
首先,复制mmseg中的data文件夹到你的mmseg的安装目录中,当然,可以不这么做,但是我希望是将有联系的东西放在一起便于查找
sudo cp /root/mmseg**/data/ /usr/local/mmseg/ -R
这里可以根据你的情况设定具体的路径
然后进入刚才的路径,生成字典文件。
cd /usr/local/mmseg/data
运行以下命令生成字典
sudo /usr/local/mmseg/bin/mmseg -u unigram.txt
会生成一个unigram.txt.uni文件,将这个文件改名或者复制为uni.lib在当前文件夹
sudo cp unigram.txt.uni uni.lib
ok,字典弄好了
现在修改csft.conf文件
sudo gedit /usr/local/coreseek/etc/csft.conf
查找charset_type并修改为charset_type = zh_cn.utf-8同时添加一行charset_dictpath = /usr/local/mmseg/data
保存退出,现在向默认的mysql数据库中插入一条中文信息。注意需要utf8_general_ci编码
重建索引
sudo /usr/local/coreseek/bin/indexer --all
好了,现在可以正常查询了,并且返回的也是正常的中文信息。测试一下
sudo /usr/local/coreseek/bin/search 中文测试
呵呵,ok了。。
分享到:
相关推荐
CoreSeek是一款专为中文环境设计的全文搜索引擎技术,它主要作为MySQL数据库的扩展,提供了高效、精准的全文索引解决方案。在MySQL的基础上,CoreSeek融入了Sphinx全文索引引擎,使得对中文文本的检索性能得到了显著...
在本文中,我们将深入探讨如何在CentOS 6.5操作系统上成功安装CoreSeek,一个基于Sphinx搜索引擎的全文检索引擎。CoreSeek以其高度可定制性、高效性能和丰富的功能特性,广泛应用于各类数据检索场景。 一、CoreSeek...
在GPL协议下,Coreseek 全文搜索服务器2.5不仅保持了开源软件的开放性,同时也鼓励社区共享与协作,共同推进搜索技术的发展。 **1. Coreseek 全文搜索服务器的核心特性:** - **高速检索**:Coreseek采用高效的倒排...
CoreSeek是基于Sphinx的中文分词和全文检索引擎,提供了中文支持和更丰富的功能。它包含了mmseg中文分词算法,能够更好地处理中文的搜索需求。 ### 3. 安装Sphinx 首先,确保系统已安装必要的依赖项,如`libxml2`...
Coreseek是一款基于Sphinx搜索引擎的中文分词系统,它提供了强大的全文检索功能,广泛应用于各种数据索引和搜索场景。本文将详细介绍如何在Linux环境下编译安装Coreseek 4.1版本,并进行实时索引的配置。 首先,...
由于Ubuntu14.04以上版本的gcc太新了,导致coreseek编译通不过,本人在网络寻找到了一个补丁可用,成功修复了这个问题。这个压缩包是补丁后的。 (严重鄙视那些要分才能下载东西的人,一点贡献精神都没有)
Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...
4. **安装mmseg中文分词库**:编译和安装mmseg,它是Coreseek进行中文分词的关键组件。 5. **安装libsphinxclient**:此库是用于连接Sphinx搜索服务的必要组件。 6. **安装PHP Sphinx模块**:从PECL网站下载并编译...
Coreseek是一款基于Sphinx搜索引擎的中文分词和全文检索解决方案,它在Sphinx的基础上增加了中文支持,使得在处理中文数据时能有更好的效果。这个压缩包"coreseek-3.2.14-.tar.gz"包含了Coreseek的源代码,允许用户...
Coreseek是一款基于全文搜索引擎Sphinx进行二次开发的开源软件,主要在中国大陆地区广泛使用,尤其在网站搜索和大数据处理方面。它提供了丰富的中文处理支持,包括分词、拼音转换等功能,使得在处理中文数据时更加...
coreseek mysql 索引配置文件 增量索引
### CoreSeek安装注意事项 #### 一、概述 在进行CoreSeek搜索引擎的安装过程中,往往会遇到各种各样的问题,这些问题可能涉及到环境配置、依赖库安装、编译错误等。本文档根据实际安装经验,并结合网络上的参考...
SQL全文索引是一种在数据库中实现全文搜索的技术,它允许用户使用自然语言查询数据库,而不仅仅是精确匹配。Sphinx是一个高性能、开源的全文搜索引擎,它为SQL数据库提供了强大的全文索引功能。Sphinx与SQL结合使用...
CoreSeek是一款开源的全文搜索引擎,它集成了Sphinx搜索服务器和中文分词器,为用户提供高效、精准的全文检索功能。在IT领域,全文搜索引擎对于处理大量数据的快速检索至关重要,尤其在电商、资讯网站等对搜索性能有...
综上所述,CoreSeek/Sphinx作为一个功能丰富、性能卓越的搜索引擎,它不仅适用于大数据环境下的全文搜索和数据挖掘,而且通过其API和SphinxQL为开发者提供了强大的搜索功能定制能力。无论是作为独立的搜索引擎,还是...
CoreSeek是中国的一款开源全文搜索引擎系统,它基于Sphinx搜索引擎进行了二次开发,增加了对中文的支持,提供了更方便的中文分词接口。在这个“coreseek-4.1.tar.gz”压缩包中,你找到了Linux版本的CoreSeek 4.1-...
今天wordpress教程网跟大家分享下如何在wordpress中使用高效的全文索引组件coreseek。Coreseek开源中文检索引擎,可以说是Sphinx中文版,因为coreseek加入了中文分词库,大家可以到官网去查看具体介绍:...
"coreseek-3.2.14-win32" 是一个针对Windows平台的中文全文搜索引擎软件,它是基于开源项目Sphinx的扩展版本。Sphinx是一款强大的、高性能的信息检索服务系统,常用于构建高效的搜索功能。在处理英文文本时,Sphinx...
Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...
总的来说,Sphinx/Coreseek权威手册中文版是一本详尽的指南,涵盖了从安装、配置到开发和优化的全过程,是理解和使用Sphinx/Coreseek进行全文检索的宝贵资源。无论你是初学者还是经验丰富的开发者,都能从中受益匪浅...