常见中文分词比较 - - ITeye博客

`

longxia1987

浏览: 37110 次
性别:
来自: 上海

最近访客更多访客>>

jackzhao1980

zjfmail

Luob.

yaya_wiscom

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

飞天奔月： ...
StatSvn 统计SVN代码信息
dandongsoft： solr 同义词配置，中文不好用啊啊啊啊啊啊啊啊啊 ...
solr 分词之同义词(synonyms)

常见中文分词比较

阅读更多

原文出处：http://blog.csdn.net/aidayei/article/details/6675886

对于英文文档，其分词的过程很简单。中文文本的分类难度较大，主要是因为汉语分词问题的困难，即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。

lucene包自带的三种中文分词：

以“我是中国人”这句话作分词举例

1.StandardAnalyzer：我－是－中－国－人
2.CJKAnalyzer：我是－是中－中国－国人
3.SmartChineseAnalyzer：我－是－中国－人

第一种是一元分词，第二种是二元分词，第三种应该比较复杂了，没看源码，我猜应该是根据中文语义来分的，有兴趣的可以去详细看看源码

solr自带的中文分词，solr.CJKTokenizerFactory，solr.ChineseTokenizerFactory和solr.ChineseFilterFactory

solr.CJKTokenizerFactory对应于lucene中的CJKAnalyzer，是二元分词
solr.ChineseTokenizerFactory对应于lucene中的StandardAnalyzer，是一元分词
solr.ChineseFilterFactory被StopFilterFactory取代，看名字应该知道是停用词过滤

下面这两种还没得及看，不知道是不是也和lucene中的SmartChineseAnalyzer对应呢

org.apache.solr.analysis.SmartChineseSentenceTokenizerFactory

org.apache.solr.analysis.SmartChineseWordTokenFilterFactory

分享到：

Spring mvc 返回json格式 | Solr 使用入门介绍，以搜索论坛帖子为示例

2012-07-02 11:28
浏览 385
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

baidu.rar_ baidu_dictionary_中文分词_中文分词词典_分词词典: 词性标注可以帮助区分动词、名词、形容词等不同类型的词汇，而词频则反映了词汇在语言中的常见程度，有助于优化分词效果。中文分词的方法主要有基于词典的分词、基于统计的分词和基于深度学习的分词。基于词典的...

分词词库_中文分词词库最新整理（TXT格式）: 中文分词是自然语言处理中的一个基础任务，它是指将连续的汉字序列切分成具有语义意义的词汇序列的过程。与英文等其他语言相比，中文没有明显的单词界限，因此中文分词是进行后续自然语言处理任务（如文本分类、情感...

五百多万常见中文分词，搜索引擎elasticsearch可直接使用: ### 五百多万常见中文分词，搜索引擎Elasticsearch可直接使用 #### 知识点概述本资料提供了一份详尽的中文词汇库，共计五百多万个常见中文词语，旨在为基于Elasticsearch的搜索引擎提供更精准、高效的中文分词...

中文分词词库整理.7z: 中文分词是自然语言处理（NLP）领域中的基础任务，它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词词库整理.7z”压缩包中，包含的可能是一个精心整理的中文词汇集合，用于支持各种中文分词算法...

百度中文分词词库: 百度中文分词词库便是这些技术的产物，它包含了大量常见词汇、专有名词、成语以及网络用语等，覆盖了日常生活中各种语境下的词汇。词库的构建通常基于大规模的语料库，通过统计分析和专家知识相结合的方式不断更新和...

中文分词数据集.zip: 中文分词是自然语言处理（NLP）领域中的基础任务，它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词数据集.zip”压缩包中，包含了一个专门用于训练中文分词模型的数据集。下面将详细讨论中文...

C#汉字分词程序: 本项目名为"C#汉字分词程序"，它实现了两种常见的分词算法：正向最大匹配法（Forward Maximum Matching, FMM）和逆向最大匹配法（Reverse Maximum Matching, RMM）。下面我们将详细探讨这两种方法及其在C#中的应用。...

中文分词+关键字提取.zip: 中文分词是将连续的汉字序列切分成具有语义意义的词语的过程。与英文单词间的空格作为天然分隔符不同，中文没有明确的分词标志，因此需要借助特定算法来完成。常见的分词方法有基于词典的匹配法、统计模型如隐...

php中文实现分词搜索: 常见的中文分词算法有基于词典的分词法（如HMM、CRF）、统计分词法（如最大匹配法、双向最大匹配法）等。这需要对NLP有一定的理解，并且可能涉及到词性标注、歧义消除等复杂步骤。在实际应用中，通常会结合多种...

易语言应用中文分词: 中文分词是将连续的汉字序列切分成具有独立语义的词语单元，它是中文文本处理的基础，对于信息检索、机器翻译、情感分析等应用至关重要。易语言应用中文分词源码通常包括以下几个核心部分： 1. **词典构建**：一...

简单的中文分词程序（练习）: 标签 "中文分词" 是关键点，中文分词是将连续的汉字序列切分成有意义的词语，这是处理中文文本的基础步骤，对于信息检索、情感分析、机器翻译等任务至关重要。常见的中文分词算法有基于词典的匹配方法、统计模型如隐...

中文分词java实现: 在Java中，常见的中文分词工具有HanLP、jieba分词、IK Analyzer、LTP（语言技术平台）等。这些工具通常提供API接口，开发者可以通过调用相关方法完成分词任务。例如，jieba分词库在Java中的使用，可以先将其导入项目...

中文分词算法程序: 中文分词是自然语言处理（NLP）领域中的基础任务，它是将连续的汉字序列切分成具有语义的单个词汇。在这个“中文分词算法程序”中，开发者使用C++编程语言实现了一种方法来处理这个任务。C++是一种高效、灵活且强大...

lucene6.6+拼音分词+ik中文分词包: 《深入理解Lucene 6.6：拼音与IK中文分词技术详解》在信息检索领域，Lucene作为一款强大的全文搜索引擎库，被广泛应用。在处理中文文本时，分词是至关重要的一步，它决定了搜索的精度和效果。本文将详细讲解如何在...

thinkphp中文分词: 在IT领域，中文分词是自然语言处理（NLP）中的关键步骤，它涉及到将连续的汉字序列切分成有意义的词语单元，这对于信息检索、文本分析、机器学习等多个应用场景至关重要。ThinkPHP是一款广泛使用的PHP开发框架，它为...

中文分词C语言版.rar: 中文分词是将连续的汉字序列切分成具有独立语义的词语，例如将“我爱自然语言处理”拆分为“我”、“爱”、“自然语言”、“处理”。由于中文没有明显的词与词之间的边界，因此分词成为理解和处理中文文本的基础。 ...

C#中文分词源码: 在IT领域，中文分词是自然语言处理（NLP）中的关键步骤，它涉及到将连续的汉字序列切分成有意义的词语单元，这对于信息检索、文本分析、机器翻译等多个应用场景至关重要。"C#中文分词源码"是一个专门针对C#编程语言...

最新逆向最大匹配分词算法盘古分词分词算法中文分词源码: 逆向最大匹配分词算法（Reverse Maximum Matching，RMM）是一种常见的中文分词技术，广泛应用于自然语言处理、搜索引擎和信息检索等领域。该算法的基本思想是从待分词文本的末尾开始，向前寻找最长的已存在于词典中...

中文分词处理技术源代码: 首先，中文分词是指将连续的汉字序列切分成具有语义的独立单位，这些单位被称为词。由于中文没有像英文那样的空格作为词与词之间的天然分隔符，因此中文分词显得尤为复杂。常见的分词方法包括基于词典的分词、统计...

中文分词mapreduce程序: 中文分词是自然语言处理中的基础步骤，它的目标是将连续的汉字序列切分成具有语义的词语。在这个Java程序中，分词任务被分为两个阶段：Map阶段和Reduce阶段。在Map阶段，原始的中文文本数据被分割成多个小块，每个...

Global site tag (gtag.js) - Google Analytics