网站搜索使用coreseek(sphinx),采用的一元分词模式,但按照官方网站的文档说明,却不支持英文单词、数字串一元分词,如:光华路SOHO,输入soho中任一字母不能查找出soho;输入soho可以查出,如标题中仅一个字母时,是可以的,如光华路h,输入“h”,可以查出,由此推断英文单词没有做一元分词索引,仔细查看文档:
(http://www.coreseek.cn/products-install/ngram_len_cjk/ 文档地址,此处仅列出主要部分)
#部分文档:
ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..
# end
其中: ngram_chars 表示要进行一元字符切分模式的字符集;
charset_table 表示可被一元字符切分模式认可的有效字符集;
仔细对比字符集开头,发现ngram_chars中没有数字与英文字母的集合,呵呵!终于找到原因了,将charset_table字符集开头:“U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,U+FF21..U+FF3A->a..z,A..Z->a..z, a..z,”部分,复制到ngram_char字符集前头如下:
ngram_chars =U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..
重新执行索引,问题解决。
分享到:
相关推荐
Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...
安装过程中可能会遇到一些问题,文档中也提供了一些已知问题的解决方法和快速入门教程,以便新手可以快速上手。 建立索引是Sphinx搜索服务的核心部分,涉及到定义数据源、属性、多值属性(MVA)、索引设置、数据源...
5. **日志和调试工具**:帮助管理员监控CoreSeek的运行状态,诊断和解决问题。 6. **测试数据和样例**:用于验证安装是否成功,以及评估搜索性能。 在部署CoreSeek时,你需要按照官方文档或教程进行操作,包括安装...
4. **分词技术**:CoreSeek采用了mmseg作为默认的中文分词引擎,支持多种分词算法,如最大匹配法、最少切分法等,确保了对中文文本的精确处理。 5. **索引构建**:在CoreSeek中,索引构建是搜索性能的关键。用户...
Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等...
Coreseek是一款基于Sphinx搜索引擎的中文分词和全文检索解决方案,它在Sphinx的基础上增加了中文支持,使得在处理中文数据时能有更好的效果。这个压缩包"coreseek-3.2.14-.tar.gz"包含了Coreseek的源代码,允许用户...
8. **故障排查**:常见的错误及解决方案,例如索引不完整、查询无结果、服务启动失败等问题。 9. **性能监控**:使用监控工具检查CoreSeek的运行状态,如CPU使用率、内存占用、查询速度等,以便及时发现和解决问题...
**Coreseek Fulltext Server 源码解析** Coreseek Fulltext Server 是一款开源的全文搜索引擎,专为中文环境设计,提供了强大的全文检索功能。这款服务器软件的源代码开放,允许开发者深入研究其内部机制,为自己的...
- **中文分词**:CoreSeek针对中文进行了优化,内置了成熟的中文分词引擎,如MMSEG(多模式中文分词算法),能够准确地进行词语划分,提高搜索的精确性。 - **全文索引**:通过建立高效的倒排索引,CoreSeek能够在...
1. **中文分词**:中文分词是中文信息处理中的重要步骤,因为中文没有像英文那样的空格来区分单词。CoreSeek采用了一种高效的中文分词算法,如MMSEG(Maximal Mutual Information Minimal Subsequence)或ICWS...
同时,监控和日志功能也是必不可少的,它们可以帮助我们及时发现并解决问题,保证系统的稳定运行。 总的来说,CoreSeek4.1为Windows环境下的中文全文检索提供了一套强大且易用的解决方案。通过深入理解其核心原理和...
【Coreseek 安装】 Coreseek 是一个专为中国市场设计的全文检索和搜索软件,它基于Sphinx技术,但能够独立运行。作为一个开源项目,它遵循GPLv2许可证,广泛应用于各种场景,如行业垂直搜索、论坛内部搜索、数据库...
CoreSeek是一款基于Sphinx搜索引擎的开源全文检索解决方案,它在中国的开源社区中有着广泛的应用。本教程将深入探讨2014年12月24日版本的CoreSeek demo,以及与其密切相关的Sphinx搜索引擎的核心概念和技术。 一、...
在这款软件的3.2.14版本中,我们能够深入探讨关于Sphinx搜索引擎、CoreSeek的特点以及如何在项目中应用这些技术。 1. Sphinx搜索引擎: Sphinx是一款高性能、实时的全文搜索引擎,它为开发者提供了方便的API接口,...
**Sphinx+CoreSeek安装配置指南** Sphinx和CoreSeek是两种强大的全文搜索引擎技术,尤其在处理大量数据的检索和高效率搜索时表现卓越。它们常被用于网站、数据库和其他需要快速、精确搜索功能的应用中。本文将详细...
sphinx-coreseek中文手册 sphinx-coreseek中文手册 sphinx-coreseek中文手册 sphinx-coreseek中文手册
"coreseek-3.2.14.tar.gz"是一个压缩包文件,其中包含了CoreSeek的3.2.14版本。CoreSeek是一个开源全文搜索引擎系统,它基于Sphinx技术,为中文用户提供高效的全文检索服务。Sphinx是一款强大的、快速的全文搜索引擎...
通过分析coreseek搜索英文问题的详解,我们可以了解到如何配置和优化Coreseek来提高英文搜索的准确性和覆盖面。 首先,我们来分析一下问题描述:当搜索一个完整的英文名字“andy”时,搜索能够正常返回结果;然而,...
在这个“coreseek-4.1.tar.gz”压缩包中,你找到了Linux版本的CoreSeek 4.1-beta,这对于在Linux环境下搭建中文搜索服务是非常有价值的。 首先,我们要理解什么是Sphinx。Sphinx是一款高性能、全文检索引擎,常用于...