`
imjl
  • 浏览: 156547 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

如何选择中文分词

阅读更多
目前全文搜索用到的中文分词,大都是开源和自己开发

相应的算法很多,到底选哪个来写,各有各的看法。

我分享下我做过的供大家参考

没用过词性的中文分词,因为我的业务用不到。

用过的大部分开源的中文分词,主要是基于字典对纯数字,纯英文,纯中文,混合进行比对,效率看字典好坏,其字典设计,内存使用,比对次数,扫描文章次数等。
适合没有明确搜索关键词的全文搜索,其目标是搜索到。
缺点:由于字典和算法,实现后的中文分词形成的索引大小差异比较大,很难衡量其准确性

写过一个分词,基本就是基于产品型号字典的比对。
特点:索引速度快,索引小。因为字典和业务挂钩很容易检查其准确性。
缺点:只能基于业务。

中文分词可以很简单,网上找个开源的来用,也可以可以很复杂,自己写,比如不同类型的字典所需信息整理搜集。大量字典情况下,内存的使用,如何更快,准确切分是比较复杂的。

选择中文分词到底是找个开源的用,还是找个算法来写,或者是自己按照业务来写,主要基于
1:项目进度:时间
2:自己写的把握:项目第一是稳,而不是快
3:业务需要
4:公司愿意的投入:人力,物力,财力
5:大家补充





分享到:
评论

相关推荐

    常用中文分词器及地址链接

    在选择中文分词器时,需要考虑以下几个方面: * 分词准确率:中文分词器的分词准确率是非常重要的,高准确率的分词器能够满足大多数中文文本处理需求。 * 语言支持:中文分词器需要支持多种语言,以满足不同语言...

    百度中文分词词库

    "百度中文分词词库"是一个专门用于分词的资源,它包含了大量的词汇及其组合方式,为精确地将连续的汉字序列分割成具有语义意义的词语提供了基础。 首先,我们要理解什么是中文分词。由于中文句子没有明显的空格来...

    lucene.NET 中文分词

    中文分词是将连续的汉字序列切分成具有语义的词语的过程,是自然语言处理(NLP)中的基础步骤。在Lucene.NET中,为了支持中文分词,通常需要结合第三方分词器,如IK Analyzer、HanLP、jieba.NET等。这些分词器具备...

    基于 Java 的中文分词器分词效果评估对比项目

    基于 Java 的中文分词器分词效果评估对比项目。它主要实现了以下功能: 分词效果评估:用户可以通过程序对比不同分词器的分词结果,以及计算分词速度、行数完美率、行数错误率、字数完美率、字数错误率等指标。 ...

    中文分词java实现

    因此,我们需要通过分词算法来识别文本中的词边界,将连续的汉字序列切分成具有独立意义的词语。例如,句子“我爱你,中国”会被分词为“我”、“爱”、“你”、“,”、“中国”。 在Java中,常见的中文分词工具有...

    php中文实现分词搜索

    总结一下,"php中文实现分词搜索"涵盖的内容包括选择合适的分词工具或算法,与PHP环境的集成,构建索引,以及实现搜索逻辑。在实际开发中,需要根据项目需求、性能要求以及团队的技术背景来选择合适的方法。随着NLP...

    matlab中文分词——最大正向匹配法.rar

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词语单元,以便计算机能够理解和分析文本。本项目以"matlab中文分词——最大正向匹配法.rar"为主题,重点讨论了如何...

    贝叶斯网络概率中文分词算法

    中文分词是中文信息处理的基础步骤,其目的是将连续的汉字序列切分成具有语义的词汇单元,对于后续的词性标注、句法分析、情感分析等任务至关重要。 首先,我们要理解贝叶斯网络(Bayesian Network)的基本概念。...

    JAVA实现的中文分词程序

    Java实现的中文分词程序是一种基于Java编程语言的文本处理工具,主要应用于处理中文文本,将其拆分成有意义的词汇单元,这一过程被称为分词。在自然语言处理(NLP)领域,分词是预处理阶段的关键步骤,为后续的文本...

    C#实现的中文分词程序

    中文分词是将连续的汉字序列切分成具有实际意义的词语的过程,因为中文没有像英文那样的空格作为单词的天然分隔符,所以需要通过特定算法来识别词语边界。例如,句子“我爱你,中国”会被分词为“我”、“爱”、“你...

    中文分词C语言版.rar

    中文分词是将连续的汉字序列切分成具有独立语义的词语,例如将“我爱自然语言处理”拆分为“我”、“爱”、“自然语言”、“处理”。由于中文没有明显的词与词之间的边界,因此分词成为理解和处理中文文本的基础。 ...

    solr 5.x 和 6.x 最新中文分词器

    总之,选择合适的中文分词器并对其进行有效配置,对于提升Solr的中文搜索效果至关重要。同时,关注Solr的版本更新和最佳实践,有助于保持系统的稳定性和性能。在实际应用中,应结合业务需求不断调整优化,以达到理想...

    Lucene中文分词器组件

    由于中文是以词为基本单位,不像英文那样有明显的空格分隔,因此在进行信息检索时,需要先对中文文本进行分词,将连续的汉字序列切分成具有独立含义的词语。这样才能有效地进行关键词匹配和索引。 在Lucene中,常见...

    中文分词算法研究整理资料

    中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义的单个词汇的过程。在这个“中文分词算法研究整理资料”中,我们可以期待找到关于如何处理中文文本,尤其是如何进行有效分词的...

    中文分词中文切词分词

    - **分词模块**:集成多种分词算法,可根据需求选择使用。 - **歧义处理模块**:实现多种歧义消解策略。 - **命名实体识别模块**:集成高效的命名实体识别算法。 - **输出模块**:支持输出为多种格式。 #### 结论 ...

    elasticsearch-ik中文分词器7.6.2.zip

    **Elasticsearch 7.6.2 中文分词器详解** Elasticsearch 是一个流行的开源全文搜索引擎,它提供了一种高效、灵活的方式来存储、搜索和分析大量数据。在处理中文文档时,为了实现准确的搜索和匹配,我们需要使用特定...

    jcseg java中文分词

    由于中文没有明显的空格分隔单词,因此需要通过分词来将连续的汉字序列切分成有意义的词汇单元。这有助于后续的文本分析、信息检索、机器翻译、情感分析等任务。 **mmseg算法的原理与应用** mmseg(Maximum ...

    织梦中文分词系统1.0

    《织梦中文分词系统1.0》是一个专为处理中文文本而设计的软件系统,其核心功能在于将连续的汉字序列切分成具有独立意义的词语,这一过程被称为中文分词。分词在自然语言处理(NLP)领域中扮演着至关重要的角色,因为...

    最新中文分词工具的词库

    本文将详细探讨标题中提到的四款中文分词工具——IK分词、jieba分词、mmseg分词以及word分词,以及它们各自的词库特点。 1. **IK分词**:全称为“Intelligent Keyword”分词,是一款广泛应用于Java环境的开源中文...

    自然语言处理:使用哈工大 PLT进行中文分词、词性分析及可视化

    中文分词是NLP中的预处理步骤,因为中文没有明显的空格来区分单词,所以需要通过算法将连续的汉字序列分割成有意义的词语。哈工大的PLT提供了分词模块,它基于统计模型,如隐马尔可夫模型(HMM)或条件随机场(CRF)...

Global site tag (gtag.js) - Google Analytics