0 0

ThinkingSphinx如何设置中文分词?10

本来是发在ruby问答里, 一直没有结果,借论坛的人气重新发到ruby论坛里, 希望版主别生气.
原问答在这里:http://www.iteye.com/problems/2585

thinking_sphinx和ultrasphinx都是不错的sphinx的封装, javaeye对ultrasphinx作了不少的介绍.

ultrasphinx的中文分词dlee作了比较全的讲解, 按说thinking_sphinx的中文分词应该照猫画虎容易解决, 但实际操作中却发现不是那么好解决.

由于thinking_sphinx和ultrasphinx都是对sphinx的封装, 所以二者生成的config文件应该是通用的,测试中也是这样.两者都在后台调用
indexer --config /usr/local/xxx/config/xx.sphinx.conf --all --rotate

在对中文分词的支持上都是在index的source上加入这样的配置
index project_xx
{
...............
charset_type = zh_cn.utf-8
charset_dictpath = /usr/local/src/coreseek_fulltext_2.5.source/dict
...........
}

采用同样的配置,ultrasphinx和thinking_sphinx对英文都没问题,中文呢,ultrasphinx Ok, 但thinking_sphinx就不行了.

莫非thinking_sphinx对search有啥不一样的实现吗?

请大伙给点启示.
2008年8月20日 23:15
目前还没有答案

相关推荐

    ElasticSearch如何使用ik进行中文分词?

    配置 IK 分词器通常是在 Elasticsearch 的设置中定义一个自定义 Analyzer,指定使用 IK 分词器,并可配置额外的参数,如是否开启远程词典加载、是否开启全模式分词等。例如: ```json "analyzer": { "my_analyzer...

    baidu.rar_ baidu_dictionary_中文分词_中文分词 词典_分词词典

    《中文分词与百度词典:深入理解与应用》 中文分词是自然语言处理(NLP)领域的一项基础任务,对于中文文本的理解至关重要。它涉及到将连续的汉字序列切分成具有语义意义的词语单元,是信息检索、机器翻译、情感...

    分词词库_中文分词词库最新整理(TXT格式)

    中文分词是自然语言处理中的一个基础任务,它是指将连续的汉字序列切分成具有语义意义的词汇序列的过程。与英文等其他语言相比,中文没有明显的单词界限,因此中文分词是进行后续自然语言处理任务(如文本分类、情感...

    lucene.NET 中文分词

    中文分词是将连续的汉字序列切分成具有语义的词语的过程,是自然语言处理(NLP)中的基础步骤。在Lucene.NET中,为了支持中文分词,通常需要结合第三方分词器,如IK Analyzer、HanLP、jieba.NET等。这些分词器具备...

    java实现中文分词simhash算法

    中文不同于英文,单词之间没有明显的分隔符,因此在处理中文文本时,我们需要先进行分词,即将连续的汉字序列切分成有意义的词汇单元。Sanford中文分词库是一种常用的分词工具,它基于统计模型,能够根据语料库学习...

    中文分词词库整理.7z

    中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词词库整理.7z”压缩包中,包含的可能是一个精心整理的中文词汇集合,用于支持各种中文分词算法...

    中文分词数据集.zip

    中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词数据集.zip”压缩包中,包含了一个专门用于训练中文分词模型的数据集。下面将详细讨论中文...

    ik中文分词词库35万中文分词词库(含电商)

    ik中文分词词库35万中文分词词库(含电商)

    百度中文分词词库

    "百度中文分词词库"是一个专门用于分词的资源,它包含了大量的词汇及其组合方式,为精确地将连续的汉字序列分割成具有语义意义的词语提供了基础。 首先,我们要理解什么是中文分词。由于中文句子没有明显的空格来...

    中文分词词库大全词库

    ### 中文分词词库大全词库解析 #### 标题与描述概述 标题:“中文分词词库大全词库” 描述重复强调了一个词典的来源及其格式(TXT)。这表明该词库是为了中文自然语言处理(NLP)任务中的分词而准备的资源。中文...

    中文分词词库汇总

    汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库...

    lucene6.6+拼音分词+ik中文分词包

    最后,IKAnalyzer.cfg.xml是IK分词器的配置文件,用于设置分词器的行为,如是否开启全模式、是否使用自定义词典等。通过修改这个配置文件,我们可以对分词过程进行精细化控制。 总的来说,"lucene6.6+拼音分词+ik...

    大数据ES数据存储,查询之IK中文分词器

    对于ES IK分词插件在中文检索中非常常用,本人也使用了挺久的。但知识细节一直很碎片化,一直没有做详细的整理。过一段时间用的话,也是依然各种找资料,也因此会降低开发效率。所以在有空的时候好好整理下相关资料...

    HMM中文分词

    基于HMM的中文分词代码,虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢...

    微软亚洲研究院中文分词语料库

    中文分词是中文文本处理的基石,因为中文没有像英文那样的空格来自然地划分单词,所以需要通过分词算法将连续的汉字序列切分成有意义的词汇单元。这一过程对于后续的文本分析、信息检索、机器翻译等任务至关重要。 ...

    中文分词+关键字提取.zip

    中文分词是将连续的汉字序列切分成具有语义意义的词语的过程。与英文单词间的空格作为天然分隔符不同,中文没有明确的分词标志,因此需要借助特定算法来完成。常见的分词方法有基于词典的匹配法、统计模型如隐...

    简单的中文分词程序(练习)

    标签 "中文分词" 是关键点,中文分词是将连续的汉字序列切分成有意义的词语,这是处理中文文本的基础步骤,对于信息检索、情感分析、机器翻译等任务至关重要。常见的中文分词算法有基于词典的匹配方法、统计模型如隐...

    C#汉字分词程序

    在IT领域,汉字分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词汇单元,以便计算机能够理解和分析文本。本项目名为"C#汉字分词程序",它实现了两种常见的分词算法:正向最大匹配...

    solr 5.x 和 6.x 最新中文分词器

    在Solr 5.x和6.x版本中,中文分词器扮演着至关重要的角色,它负责将中文文本拆分成有意义的词汇,便于索引和查询。下面将详细介绍Solr中的中文分词器及其相关知识。 一、Solr中文分词器概述 在处理中文文档时,由于...

    中文分词词库整理 rar

    30万 中文分词词库.txt 42537条伪原创词库.txt 百度分词词库.txt 词库地址.txt 词库下载地址.txt

Global site tag (gtag.js) - Google Analytics