`
leon_a
  • 浏览: 79009 次
  • 性别: Icon_minigender_1
  • 来自: 拜月神教
社区版块
存档分类
最新评论

正向最大匹配改进算法

阅读更多
AD.:
2年J2EE经验,熟悉常用数据结构算法,熟悉常用开发框架。
手机:15940949592,欢迎骚扰及内部推荐


题外话:为什么用java来写呢,因为可以写的又臭又长

   

正文:
传送门,引用ahuaxuan大牛的帖子,使用DFA实现文字过滤

在ahuaxuan的帖子中,实际上也引入了一个基于Trie字典树中文分词的问题。

图1:一个典型的Trie树结构

其中图1 state为1时表示从根结点到state=1的结点成一个词
图1由三个词组成:“上海”,“上海浦东”,“上海浦东发展银行”

将“上海浦东发展银行”进行词语切分,在不使用正向最大匹配及逆向最大匹配的情况下,有可能切分结果如下:“上海/浦东/发展/银行”,而我们实际想要的结果是“上海浦东发展银行”整句的专有名词。如果想进行这样的切分,就需要使用正向最大匹配或逆向最大匹配算法
单介绍正向最大匹配

正向最大匹配是在已经匹配到state=1的词时,继续向Trie树下遍历有限深度(其深度由参数给出)。如果此时落在state=0的Trie树结点上,向上回溯直到state=1,将词输出。如果直接落在state=1结点,那么直接输出此词。

图2:正向最大匹配示意图

图2中,其继续遍历深度=5
当遍历到state=1的“海”字时,继续向下遍历5次,到“银”字,因其state=0,回溯到“东”字
输出“上海浦东”
其直接限制是受到参数遍历深度的限制。那有的朋友可能会说,把参数改大不就解决问题了。不过这样就引入了效率问题,很多词只需要向下遍历2,3次就可以最大化匹配

改进
图3:正向最大匹配改进

图3中,其继续遍历深度也=5
但是当回溯到词“上海浦东”时,以“东”字结点继续遍历,直到其下面5个结点的state都=0时结束,很明显,这是一个递归的过程
代码如下
	/**
	 * 
	 * 最大正向匹配改进
	 * 
	 * @param node
	 * @param textChar
	 * @param index
	 * @return
	 */
	private int searchMaxWord(TrieTreeNode node, char[] textChar, int index) {
		if (terminateCondition(node, textChar, index)) {
			return --index;
		}
		TrieTreeNode tempNode = node;
		for (int i = index; i < index + RECURSION_TIME; i++) {
			if (tempNode.childs.get(textChar[i]).state != 1) {
				WORD_LEN++;
				tempNode = tempNode.childs.get(textChar[i]);
			} else {
				WORD_LEN++;
				return searchMaxWord(tempNode.childs.get(textChar[i]),
						textChar, i + 1);
			}
		}
		return -1;
	}

	/**
	 * 改进算法递归终止条件
	 * 
	 * @param node
	 * @param textChar
	 * @param index
	 * @return
	 */
	private boolean terminateCondition(TrieTreeNode node, char[] textChar,
			int index) {
		TrieTreeNode tempNode = node;
		for (int i = index; i < index + RECURSION_TIME; i++) {
			if (i > textChar.length - 1) {
				return true;
			}
			if (tempNode.childs.get(textChar[i]) == null) {
				return true;
			}
			if (tempNode.childs.get(textChar[i]).state != 1) {
				tempNode = tempNode.childs.get(textChar[i]);
			} else {
				return false;
			}
		}
		return true;
	}

依据此方法改进
	public static void main(String[] args) {
		TrieTree tt = new TrieTree();
		tt.insertTrieTree("上海");
		tt.insertTrieTree("上海浦东");
		tt.insertTrieTree("上海浦东发展银行");
		tt.searchTrieTree("欢迎光临上海浦东发展银行主页!");
	}

其结果为
上海浦东发展银行

完整代码见附件

由于时间仓促,难免有疏漏之处,望指正并见谅
  • src.rar (2.1 KB)
  • 下载次数: 497
分享到:
评论
24 楼 linliangyi2007 2009-06-06  
jenlp520 写道
引用
对于Map的空间使用时需要一定的容易的,在默认情况下,HashMap的冗余参数是0.75,也就是说,当你的Map的空间为10时,实际上只能放入7 个元素,当第八个元素放入时,Map的空间就要翻倍为20了。因此,设置合理的冗余参数,能有效的抑制多余的空间损耗。当然,负面影响是,Map的命中效率会有所下降


就象默认map空间为16一样 虽然在不扩容的情况下只能放16*0.75=12个 但是实际上它还是初始化了一个16个长度的数组
其实最早我是认为这个每必要 因为分枝不会过多 当然现在改这个基本没什么作用...就不讨论这个了


引用
判断一个树节点的子节点,但子节点小于一定数量时,可以简单的使用数组存储,查找时直接遍历数组;但子节点大于一定数量时,改为HashMap存储,提高搜索效率


以你的经验 这个极限值多少适合呢?


我目前设置的数组大小为4。这样如果使用简单的遍历,最多4次,平均2次命中,如果使用2分法,可以将数组扩大到8,这样3次一定可以完成匹配。
这样可以有效的降低内存消耗。
23 楼 jenlp520 2009-06-06  
引用
对于Map的空间使用时需要一定的容易的,在默认情况下,HashMap的冗余参数是0.75,也就是说,当你的Map的空间为10时,实际上只能放入7 个元素,当第八个元素放入时,Map的空间就要翻倍为20了。因此,设置合理的冗余参数,能有效的抑制多余的空间损耗。当然,负面影响是,Map的命中效率会有所下降


就象默认map空间为16一样 虽然在不扩容的情况下只能放16*0.75=12个 但是实际上它还是初始化了一个16个长度的数组
其实最早我是认为这个每必要 因为分枝不会过多 当然现在改这个基本没什么作用...就不讨论这个了


引用
判断一个树节点的子节点,但子节点小于一定数量时,可以简单的使用数组存储,查找时直接遍历数组;但子节点大于一定数量时,改为HashMap存储,提高搜索效率


以你的经验 这个极限值多少适合呢?
22 楼 linliangyi2007 2009-06-06  
leon_a 写道
ansjsun 写道


哦是tire树啊...
楼主弄过双数组tire树么???我一直困惑内个呢.你这么分出来效率咋样啊!!


查询时间复杂度o(1),不过这个分词来说实在太过简单了,做文字过滤倒还有那么一丁点参考价值,具体正在完善中(请别期待,我很懒。。。)

PS:linliangyi2007兄这么晚还在线


呵呵,正在做IK Analyzer 3.0的版本设计编码。这个版本已经实现了一个不错的词典匹配算法,22w主词典,内存控制在24M,匹配速度大概在300w词每秒以上(没细算,实际值可能更高些)。请让我先买个关子,等IK Analyzer 3.0发布后,跟大家分享哈
21 楼 leon_a 2009-06-06  
ansjsun 写道


哦是tire树啊...
楼主弄过双数组tire树么???我一直困惑内个呢.你这么分出来效率咋样啊!!


查询时间复杂度o(1),不过这个分词来说实在太过简单了,做文字过滤倒还有那么一丁点参考价值,具体正在完善中(请别期待,我很懒。。。)

PS:linliangyi2007兄这么晚还在线
20 楼 leon_a 2009-06-06  
jenlp520 写道


ps:请原谅我没学过数据结构...看双数组trie看了半天还是弄清楚怎么去创建数组
ps:附上我没看懂的双数组trie文档


双数组trie树在存储空间上确实做到了最小,不过在其树结构有变化时,比如增加与删除节点,其解决冲突的时间复杂度很高在比较大的字典中,并不适合
19 楼 linliangyi2007 2009-06-06  
jenlp520 写道

感谢你的建议..
我字典的词是转成char[]后保存的每个char的
我改DEFAULT_INITIAL_CAPACITY的原因是 我认为大部分节点下的分支不会超过10个 所以我认为Map内的Entry数组不需要默认的16这么大


对于Map的空间使用时需要一定的容易的,在默认情况下,HashMap的冗余参数是0.75,也就是说,当你的Map的空间为10时,实际上只能放入7个元素,当第八个元素放入时,Map的空间就要翻倍为20了。因此,设置合理的冗余参数,能有效的抑制多余的空间损耗。当然,负面影响是,Map的命中效率会有所下降

引用
3.尝试动态的结合map和数组。
这个能否举个例 我现在对用数组实现多分支trie树很困扰


判断一个树节点的子节点,但子节点小于一定数量时,可以简单的使用数组存储,查找时直接遍历数组;但子节点大于一定数量时,改为HashMap存储,提高搜索效率
18 楼 jenlp520 2009-06-05  
linliangyi2007 写道
jenlp520 写道
现在我很郁闷啊 用之前的做法 2000个关键字消耗内存在15-18M左右 这个大小很恐怖啊

我估计是每个节点一个hashmap太占内存了 然后自己改了下map把原来DEFAULT_INITIAL_CAPACITY = 16改成了
DEFAULT_INITIAL_CAPACITY = 5结果在测试2000个关键字还是用了15M内存左右
后来我又试试不在每个节点里面放一个hashmap而是用个全局的...结果还是用了15M左右

难道一定要用双数组trie才能把内存降下来么...

ps:请原谅我没学过数据结构...看双数组trie看了半天还是弄清楚怎么去创建数组
ps:附上我没看懂的双数组trie文档


提示你,
1.不要简单的使用String来记录词典的词,那样太占内存
2.有效的设置hashmap的参数loadFactor,建议是0.8(DEFAULT_INITIAL_CAPACITY 只是默认的容量,当不够是,HashMap照样翻倍增加,你的设计基本是没有用的,关键是loadFactor这个参数);
3.尝试动态的结合map和数组。



感谢你的建议..
我字典的词是转成char[]后保存的每个char的
我改DEFAULT_INITIAL_CAPACITY的原因是 我认为大部分节点下的分支不会超过10个 所以我认为Map内的Entry数组不需要默认的16这么大

引用
3.尝试动态的结合map和数组。

这个能否举个例 我现在对用数组实现多分支trie树很困扰
17 楼 linliangyi2007 2009-06-05  
jenlp520 写道
现在我很郁闷啊 用之前的做法 2000个关键字消耗内存在15-18M左右 这个大小很恐怖啊

我估计是每个节点一个hashmap太占内存了 然后自己改了下map把原来DEFAULT_INITIAL_CAPACITY = 16改成了
DEFAULT_INITIAL_CAPACITY = 5结果在测试2000个关键字还是用了15M内存左右
后来我又试试不在每个节点里面放一个hashmap而是用个全局的...结果还是用了15M左右

难道一定要用双数组trie才能把内存降下来么...

ps:请原谅我没学过数据结构...看双数组trie看了半天还是弄清楚怎么去创建数组
ps:附上我没看懂的双数组trie文档


提示你,
1.不要简单的使用String来记录词典的词,那样太占内存
2.有效的设置hashmap的参数loadFactor,建议是0.8(DEFAULT_INITIAL_CAPACITY 只是默认的容量,当不够是,HashMap照样翻倍增加,你的设计基本是没有用的,关键是loadFactor这个参数);
3.尝试动态的结合map和数组。
16 楼 linliangyi2007 2009-06-05  
Programmer2.x 写道
中文分词,效果最好的是隐马尔科夫模型。


楼上这个回答文不对题!隐码模型跟楼主说的字串匹配没直接关系。

在中文分词中,隐码模型适合做语法分析,但不见的是效果最好的分词方式。用过中科院的分词器你就知道了。


另外,楼主的想法很好。
给楼主一个提示,
1.在路径上标注匹配的最长词语(这个楼主已经实现)
2.在词典的分支上注明是否还有后续的叶节点(这样可以最快的终止匹配失败)
有了上面的数据结构,不需要使用固定深度递归来试探,能有效的提高效率,而且不会漏掉比递归深度还长的词汇
15 楼 Programmer2.x 2009-06-04  
中文分词,效果最好的是隐马尔科夫模型。
14 楼 jenlp520 2009-06-04  
现在我很郁闷啊 用之前的做法 2000个关键字消耗内存在15-18M左右 这个大小很恐怖啊

我估计是每个节点一个hashmap太占内存了 然后自己改了下map把原来DEFAULT_INITIAL_CAPACITY = 16改成了
DEFAULT_INITIAL_CAPACITY = 5结果在测试2000个关键字还是用了15M内存左右
后来我又试试不在每个节点里面放一个hashmap而是用个全局的...结果还是用了15M左右

难道一定要用双数组trie才能把内存降下来么...

ps:请原谅我没学过数据结构...看双数组trie看了半天还是弄清楚怎么去创建数组
ps:附上我没看懂的双数组trie文档
13 楼 leon_a 2009-06-02  
jenlp520 写道
我写的一个跟现在这个差不多 我发现我们都被满屏的if else困扰啊

ps:银河英雄传好看么...我就只知道杨威利这个角色

等我抽出时间重构一下。
PS:银英很好看,老动画
12 楼 jenlp520 2009-06-02  
我写的一个跟现在这个差不多 我发现我们都被满屏的if else困扰啊

ps:银河英雄传好看么...我就只知道杨威利这个角色
11 楼 leon_a 2009-06-02  
我的情况里只进行了最大匹配的情况,中国人走了。正确应该被拆分成,
中国/国人/中国人/走了
处理这种,一个词头是另一个词的尾以及记录过程词
只需要在我的算法中稍加改动就可以了,比如
可以在任意搜寻到状态1的时候记录此词
以及每个字都进行最大正向匹配就可以解决词头词尾的问题(不过这样匹配速度就降下来了,寻找更好的方法,希望共同探讨)

其算法正在写(写出个烂效率的匹配最多词,将就着看吧,见附件)

另:本文只是抛块转头,希望勾引好玉出来
10 楼 jenlp520 2009-06-02  
leon_a 写道
jenlp520 写道
LZ这个有点问题
你试试这个
		tt.insertTrieTree("python");
		tt.insertTrieTree("py");
		tt.insertTrieTree("pyt");
		tt.insertTrieTree("thon");
		tt.searchTrieTree("python");


得到的结果是
python

得到这个结果是正常的,在我的算法中,只进行了最大匹配,没有记录过程词与分支处理



原来是这样挖 我误会拉````

不过这样的不算分支吧 一个词的头是另一个词的尾
		tt.insertTrieTree("中国人");
		tt.insertTrieTree("人走了");
		tt.searchTrieTree("中国人走了");

               输出:中国人
9 楼 leon_a 2009-06-02  
jenlp520 写道
LZ这个有点问题
你试试这个
		tt.insertTrieTree("python");
		tt.insertTrieTree("py");
		tt.insertTrieTree("pyt");
		tt.insertTrieTree("thon");
		tt.searchTrieTree("python");


得到的结果是
python

得到这个结果是正常的,在我的算法中,只进行了最大匹配,没有记录过程词与分支处理
8 楼 sanliyer 2009-06-02  
多谢楼主提供
7 楼 jenlp520 2009-06-02  
还有多谢LZ``借用你的思想 写了个
                DFATree dfaTree = new DFATree();
		dfaTree.addWords("python");
		dfaTree.addWords("py");
		dfaTree.addWords("pyt");
		dfaTree.addWords("thon");
		List list =  dfaTree.searchWord("python");

得到结果是:
py : 1
pyt : 1
python : 1
thon : 1

6 楼 jenlp520 2009-06-02  
LZ这个有点问题
你试试这个
		tt.insertTrieTree("python");
		tt.insertTrieTree("py");
		tt.insertTrieTree("pyt");
		tt.insertTrieTree("thon");
		tt.searchTrieTree("python");


得到的结果是
python
5 楼 ansjsun 2009-06-01  
哦是tire树啊...
楼主弄过双数组tire树么???我一直困惑内个呢.你这么分出来效率咋样啊!!

相关推荐

    正向最大匹配算法 分词算法

    为了克服这些不足,后续出现了改进的正向最大匹配算法,如双向最大匹配(BMM),结合前后文信息,以及结合概率模型的分词方法,如隐马尔可夫模型(HMM)、条件随机场(CRF)等。 在实际应用中,正向最大匹配算法...

    改进的正向最大匹配分词算法

    - **处理策略**:为了提高分词效率和准确性,本文提出的改进算法加入了一个专门用于处理交集型歧义的模块。该模块的工作机制是在分词前先进行预处理,识别出可能产生交集型歧义的位置,并对其进行特殊处理,以减少...

    一种基于改进最大匹配快速中文分词算法

    ### 基于改进最大匹配快速中文分词算法的知识点 #### 一、中文分词技术概述 中文分词作为自然语言处理中的基础步骤,在文本分析、机器翻译、信息检索等多个领域发挥着至关重要的作用。它主要负责将连续的中文字符...

    一个简单的分词系统(可以选择正向最大匹配分词或逆向最大匹配)

    在这个简单的分词系统中,提供了两种主要的分词算法:正向最大匹配(Forward Maximum Matching, FMM)和逆向最大匹配(Backward Maximum Matching, BMM)。下面我们将详细探讨这两种方法及其应用。 首先,正向最大...

    中文正向最大匹配

    总结来说,中文正向最大匹配算法是解决中文分词问题的有效工具,其核心在于寻找最大可能的词汇进行匹配。在Java中,我们可以利用合适的数据结构优化词汇查找,并结合语料库对算法进行评估和改进。这个项目提供了一个...

    matlab中文分词——最大正向匹配法.rar

    5. **优化与改进**:为了提高分词效率和准确性,可以对最大正向匹配算法进行优化,比如使用哈希表加速词典查询,引入动态规划减少回溯,或者结合词频统计信息以减少歧义。 这个MATLAB项目很可能是为了教学目的,...

    最新逆向最大匹配分词算法 盘古分词 分词算法 中文分词 源码

    逆向最大匹配分词算法"可能是实现逆向最大匹配算法的具体代码,"秒盘古分词"可能是指快速版本的盘古分词程序,"中文分词"和"英文分词"源码分别针对中文和英文的分词处理,"最新分词"可能包含最新的优化或改进,而"最...

    基于Hash结构的逆向最大匹配分词算法的改进_丁振国1

    本文主要探讨了基于Hash结构的逆向最大匹配分词算法的改进,旨在提高分词速度和准确性,减少歧义。 1. 分词算法概述 - 最小匹配算法:这是一种早期的分词方法,从字符串左侧开始,每次取固定长度的字段与词典对比...

    Java实现的最大匹配法统计词频

    最大匹配法(MaxMatch,MM)是一种常用的分词算法,尤其适用于中文分词。本篇文章将深入探讨如何使用Java实现最大匹配法来统计词频,并基于提供的Eclipse工程进行详细解析。 最大匹配法分为前向最大匹配和后向最大...

    最大正向逆向分词算法

    最大正向逆向分词算法结合了最大正向匹配和逆向最大匹配两种策略,以提高分词的准确率和效率。最大正向匹配是从句子的开始位置,选取最长的词典中的词作为分词结果,直到无法找到更长的词为止。逆向最大匹配则从句子...

    PHP实现的最大正向匹配算法示例

    最大正向匹配算法是一种在自然语言处理中常用的分词算法,尤其在中文分词领域有广泛应用。该算法的基本思想是从待分词文本的左侧开始,尝试将连续的字符序列与预定义的词典进行匹配,以找到最长的匹配词。在PHP中...

    基于KMP思想的模式匹配算法及vc++实现

    一种改进的字符串匹配算法,由D.E.Knuth与J.H.Morris和V.R.Pratt同时发现,简称KMP。关键是利用匹配失败后的信息,尽量减少模式串与主串的匹配次数以达到快速匹配的目的。...简述分词算法之正向最大匹配法。

    智能家居场景下改进的中文字符串匹配算法.pdf

    该算法的核心在于结合了正向最大匹配算法进行分词处理,以及通过对汉字拼音码和汉字字形结构的研究,对传统的编辑距离算法进行改进。编辑距离算法是计算两个字符串之间差异的一种基本方法,用于衡量两个字符串的...

    双向匹配分词算法 Java

    传统的分词方法通常采用正向最大匹配或反向最大匹配,但这些方法可能会因为单方向查找而遗漏某些可能的词语。双向匹配分词算法则试图解决这个问题,它会同时从字符串的左右两端进行匹配,确保尽可能找出所有可能的...

    一种改进的中文分词算法

    本文提出了一种改进的中文分词算法,通过优化词库结构和匹配算法,有效解决了传统正向最大匹配法存在的问题。 #### 关键知识点 ##### 1. 中文分词的重要性及挑战 - **重要性**:中文分词是进行中文信息处理的第一...

    基于逆向最大匹配分词论文及java代码

    4. **对比与改进**:可能与其他分词算法如正向最大匹配、双向最大匹配(BMM)进行比较,分析各自的优势和不足,还可能提出了一些优化或改进方案。 5. **实际应用**:阐述了逆向最大匹配分词在实际NLP任务中的应用,...

    最大匹配法文本分词

    在实际应用中,最大匹配法通常会结合其他策略,如前向和后向的最大匹配结合,或者引入动态规划算法(如BiMaxMatch)来优化分词结果。同时,为了处理未登录词(即不在词典中的新词或专有名词),可以使用概率模型,如...

    最大匹配法分词的缺陷尽管最大匹配法分词是常用的解决的方案.pdf

    这可能导致正向和逆向最大匹配结果的不同,从而产生错误的分词结果。虽然可以通过回溯法或统计词频来减少歧义,但完全消除歧义几乎是不可能的,因为中文的灵活性和多样性太大。 此外,最大匹配法并不总是提供最佳的...

Global site tag (gtag.js) - Google Analytics