最大正向匹配分词 - chunguo.wang - ITeye博客

`

黎明lm

浏览: 309751 次
性别:
来自: 北京

最近访客更多访客>>

baby孔祥超

jiazhigang

slipper-jay

woshiliukun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dandongsoft：你写的不好用啊
solr 同义词搜索
黎明lm： meifangzi 写道楼主真厉害都分析源码了用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
meifangzi：楼主真厉害都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
zhdkn：顶一个，最近也在学习设计模式，发现一个问题，如果老是看别人的博 ...
Java观察者模式（Observer）详解及应用
lvwenwen：木南飘香写道
高并发网站的架构

最大正向匹配分词

博客分类：

中文分词

阅读更多

public void fenci() {

int j = 0;
int kp =0;

while(j < sentence.length()){

for(int i = maxlength;i >0;i--){

kp = i+j;
if(kp > sentence.length()){
kp = sentence.length();
}
String key = sentence.substring(j, kp).trim();

if(LoadDictionary.hashmap.containsKey(key)){
set.add(key);
j += i;
break;
}
if (i == 1) { // 如果字典中没有这个字，则直接切出
                    j++;
                    set.add(key);
                    break;
                }

}
}

}

分享到：

文本表示 --- VSM | Lucene的分词原理与分词系统

2011-12-27 14:22
浏览 1110
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

FMM最大正向匹配分词java源代码: ### FMM最大正向匹配分词Java源代码分析 #### 一、概述本文将对提供的"FMM最大正向匹配分词Java源代码"进行详细解析。该代码实现了基于最大正向匹配（Forward Maximum Matching，简称FMM）算法的中文分词功能。...

python正向最大匹配分词和逆向最大匹配分词: Python 正向最大匹配分词和逆向最大匹配分词 Python 正向最大匹配分词和逆向最大匹配分词是自然语言处理（NLP）中的重要技术，用于将文本拆分成单个词语，以便进行文本分析和处理。在本文中，我们将讨论 Python ...

中文分词最大正向匹配: 在本压缩包文件“VFMM”中，可能包含了C++实现的最大正向匹配分词的源代码、词典文件以及其他相关工具。用户可以查阅源代码了解具体的实现细节，同时根据需求添加或修改词典资源，以适应自己的项目。通过理解和使用...

改进的正向最大匹配分词算法: ### 改进的正向最大匹配分词算法 #### 概述本文旨在介绍一种改进的正向最大匹配分词算法(MMSEG)，该算法针对传统最大匹配算法存在的不足进行了优化，特别是在处理交集型歧义字段方面有所创新。通过引入预处理、互...

分词匹配算法：正向最大匹配和反向最大匹配: 分词匹配算法：正向最大匹配和反向最大匹配分词匹配算法是自然语言处理领域中的一种重要技术，它的主要目的是将汉字串切分为单个词语，以便于进一步的语言处理。分词匹配算法有多种类型，其中机械分词方法是最基本...

正向最大匹配中文分词算法: 中文分词一直都是中文自然语言处理领域的基础研究。目前，网络上流行的很多中文分词软件都可以在付出较少的代价的同时...MM算法有三种：一种正向最大匹配，一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。

matlab中文分词——最大正向匹配法.rar: 本项目以"matlab中文分词——最大正向匹配法.rar"为主题，重点讨论了如何在MATLAB环境中实现最大正向匹配算法进行中文分词。 MATLAB是一种广泛使用的数学计算和编程环境，其强大的数值计算和可视化功能使其成为科研...

正向最大匹配算法分词算法: 正向最大匹配（Forward Maximum Matching，FMM）算法是一种在自然语言处理中广泛使用的中文分词方法。在中文文本处理中，由于汉字不带有明显的边界标识，因此需要借助特定的算法来将连续的汉字序列切分成有意义的...

正向最大匹配分词算法 perl版: perl 写的正向最大匹配分词模块。 # #正向最大分词 #eg: my $seg = new Segmenter($list); # my $list_arrref = $seg->segment($line); #

正向最大匹配算法实现中文分词: MM算法有三种：一种正向最大匹配，一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。本程序还可以从我的github上面下载：https://github.com/Zehua-Zeng/Maximum-Matching-Algorithm

最大正向逆向分词算法: 最大正向逆向分词算法结合了最大正向匹配和逆向最大匹配两种策略，以提高分词的准确率和效率。最大正向匹配是从句子的开始位置，选取最长的词典中的词作为分词结果，直到无法找到更长的词为止。逆向最大匹配则从句子...

正向匹配分词实例及详解: ### 正向最大匹配分词实例及详解 #### 一、引言在自然语言处理领域，特别是中文信息处理中，中文分词是一项基础而重要的技术。它将连续的中文字符序列切分成一个个独立有意义的词语，从而为后续的数据挖掘、文本...

中文分词程序-正向最大匹配算法及逆向最大匹配算法: 在这个“中文分词程序”中，包含了两种常见的分词算法：正向最大匹配算法（Forward Maximum Matching, FMM）和逆向最大匹配算法（Backward Maximum Matching, BMM）。正向最大匹配算法是一种自左向右的分词策略。...

一个简单的分词系统（可以选择正向最大匹配分词或逆向最大匹配）: 在这个简单的分词系统中，提供了两种主要的分词算法：正向最大匹配（Forward Maximum Matching, FMM）和逆向最大匹配（Backward Maximum Matching, BMM）。下面我们将详细探讨这两种方法及其应用。首先，正向最大...

正向最大分词C++版: 在这个场景中，我们关注的是"正向最大匹配法"（Forward Maximum Matching，FMM）的C++实现。这是一种常见的中文分词算法，适用于初步的文本处理工作。正向最大分词法的基本思想是从文本的开头开始，每次选取最长的...

正向最大匹配(FMM)和逆向最大匹配(BMM)的分词系统: 正向最大匹配（Forward Maximum Matching, 简称FMM）和逆向最大匹配（Backward Maximum Matching, 简称BMM）是两种广泛应用的分词算法，它们在C#环境下被实现并封装在一个名为"FMM&BMM_WordDivise"的压缩包中。...

基于正向、逆向的最大分词算法实现: 正向最大匹配法（Forward Maximum Matching, FMM）是一种常见的分词策略。该算法从文本的开始位置，选取尽可能长的词语，直到无法找到匹配词典中的词语为止，然后回溯并尝试匹配较短的词语。这种算法简单易实现，但...

python正向最大匹配分词和逆向最大匹配分词的实例: 在本篇文章中，将深入探讨Python语言实现的正向最大匹配分词算法和逆向最大匹配分词算法。这两种分词算法是中文自然语言处理（NLP）领域中非常重要的基础技术，广泛应用于中文信息检索、文本挖掘等场景。文章将给出...

正向最大匹配分词算法及KNN文本分类算法python实现.zip: 正向最大匹配分词算法（Forward Maximum Matching, FMM）是自然语言处理（NLP）领域中常用的一种中文分词方法。它的工作原理是从待分词的文本的起始位置开始，每次尝试匹配尽可能长的词语，直到文本末尾。在匹配过程...

中文分词-正向最大匹配法和逆向最大匹配法的实现: 在这个项目中，我们主要关注两种常用的分词方法：正向最大匹配法（Forward Maximum Matching, FMM）和逆向最大匹配法（Backward Maximum Matching, BMM）。这两种方法都是基于词典的分词策略，它们通过对比词典中的...

Global site tag (gtag.js) - Google Analytics