`
orange.lpai
  • 浏览: 93896 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

双数组TRIE树原理

阅读更多
双数组TRIE树原理

原文名称:
An Efficient Digital Search Algorithm by Using a Double-Array Structure
作者:
JUN-ICHI AOE
译文:
使用双数组结构的一个高效的Digital Search算法

摘要:
本文介绍了一种新的内部(内部排序的内部,也就是在内存里)数组结构的digital search算法,叫做双数组,结合了数组存取的快速和链式存储的压缩。Digital search树的每一条弧在双数组中都可以以O(1)的时间复杂度计算得到;也就是说,查找一个key值最坏的时间复杂度是O(k),k是这个key值的长度。本文给出了同时具有速度和空间双重性能的双数组的查找,插入,删除算法。假设双数组的长度是n+cm,n是ds树中节点的数量,m是输入符号的数量,c是一个依赖于实现的常数;那么理论上可以证明插入和删除的最坏时间复杂度分别是cm2(插入要解决冲突,所以慢)和cm,与n没有关系。从实验的结果来看,建立双数组的时间随n增长,并且c是一个相当小的常数,从0.17到1.13。

关键词:数据库系统,数据结构,词典,digital search,动态内部存储,关键词查询算法。 ---


1.       导论
在很多信息检索算法中,很需要采用一种快速的digital search算法,或者叫做trie搜索,因为它一个字符(digital)一 个字符地查看输入。使用这种数据结构的例子有一种词法分析器,和一种编译器的本地代码优化器,一种图书搜索,拼写检查,常用单词过滤器,一种自然语言处理 中的形态学分析器等等。词典能够动态增长在自然语言处理中尤为重要,因为经常需要对词汇表添加新词(这其实是双数组的弱项- -)。本文展示的这一算法适合插入远远多于删除的情况,这样删除带来的空间浪费就可以由插入来填补。

       关键词查询策略可以被大致分为两类,按照关键词集合是否可变可以将这些算法分为“动态方法”(允许查询表被修改)和“静态方法”(显然相反)两种。广为人知的“动态方法”有:hashing,二叉树,B+树,扩展hashing,和trie hashing。而“静态方法”有:完美hashing,稀疏表,以及压缩trie。 当使用静态方法的时候我们能专注于提高查询速度和压缩数据结构,而当使用动态方法的时候我们会使用额外的空间以达到更快的更新速度。本文提出的查询方法正 好介于这两者之间,所以我称之为“弱静态方法”。将静态方法扩展到弱静态方法,同时保持前者有用的特性是十分困难的。完美hashing的扩展已经有了,但不能确定插入的时间复杂度上限。本文的目标是建立一种digital search算法,它同时具有静态方法的速度和压缩特性,以及动态方法的快速更新的能力。

       不同于基于key值的搜索方法,digital search采用一连串的字符(digit)来表示一个key。每个h层的DS树的节点表示所有以一定的h个字符开始的关键词;这个节点根据第(h+1)个字符定义它的分支。本文的基本观念是压缩trie树,使用两个一维数组base和check来表示trie树,成为双数组,并且给出更新(插入、删除)算法。Trie的每个节点使用指针指向下一个元素,每个索引元素是一个结束标志加上一个指向新节点的指针(或者null)。查询,插入,删除都非常快,但是它会占用很多空间,因为很多trie树节点是空的;也就是说,trie树是稀疏的。所以我们必须尝试映射节点r到check数组,这种映射关系由base[r]指定。

       在接下来的章节,我们会详细描述我们的想法。在第二节,我们把DS树形式化为模式匹配机器并定义双数组使用O(1)时间计算一条弧。为了将双数组应用于大的关键词集合,双数组做出了一些修改。最主要的创新是仅将足以分辨不通关键词的前缀存储到双数组,将其他部分存储在单独的string里面。插入删除算法在第三章讨论。当插入一个新的非空位置r的时候遇到另一个节点k已经占用这个位置,插入算法通过重新调整base[r]或者base[k]来解决冲突。在本文中,为减少占用的时间和空间占用组少非空未知的k或r有优先权(就是移动占用少的,占用多的不变)。第四节讨论了每个算法的最坏时间复杂度的理论值,并且通过实验验证了。双数组的部分匹配和key-order查询也做出了讨论。最后第五节做出了结论总结。
http://prozax.spaces.live.com/blog/cns!4381466BFEE95819!185.entry
http://songtaiping.5d6d.com/thread-111-1-1.html

双数组trie树的基本构造及简单优化

一、 基本构造

Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态。在词典中这此状态包括"词前缀","已成词"等。
双数组Trie(Double-Array Trie)是trie树的一个简单而有效的实现,由两个整数数组构成,一个是base[],另一个是check[]。设数组下标为i ,如果base,check均为0,表示该位置为空。如果base为负值,表示该状态为词语。Check表示该状态的前一状态,t=base+a, check[t]=i 。
复制代码
下面举例(源自<<双数组Trie(Double-Array Trie)的数据结构与具体实现>>)来说明用双数组Trie(Double-Array Trie)构造分词算法词典的过程。假定词表中只有“啊,阿根廷,阿胶,阿拉伯,阿拉伯人,埃及”这几个词,用Trie树可以表示为:
我们首先对词表中所有出现的10个汉字进行编码:啊-1,阿-2,唉-3,根-4,胶-5,拉-6,及-7,廷-8,伯-9,人-10。。对于每一个汉字,需要确定一个base值,使得对于所有以该汉字开头的词,在双数组中都能放下。例如,现在要确定“阿”字的base值,假设以“阿”开头的词的第二个字序列码依次为a1,a2,a3……an,我们必须找到一个值i,使得base[i+a1],check[i+a1],base[i+a2],check[i+a2]……base[i+an],check[i+an]均为0。一旦找到了这个i,“阿”的base值就确定为i。用这种方法构建双数组Trie(Double-Array Trie),经过四次遍历,将所有的词语放入双数组中,然后还要遍历一遍词表,修改base值。因为我们用负的base值表示该位置为词语。如果状态i对应某一个词,而且Base=0,那么令Base=(-1)*i,如果Base的值不是0,那么令Base=(-1)*Base。得到双数组如下:
复制代码
下标 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Base -1 4 4 0 0 0 0 4 -9 4 -11 -12 -4 -14
Check 0 0 0 0 0 0 0 2 2 2 3 8 10 13
词缀 啊 阿 埃 阿根 阿胶 阿拉 埃及 阿根廷 阿拉伯 阿拉伯人
用上述方法生成的双数组,将“啊”,“阿”,“埃”,“阿根”,“阿拉”,“阿胶”,“埃及”,“阿拉伯”,“阿拉伯人”,“阿根廷”均视为状态。每个状态均对应于数组的一个下标。例如设“阿根”的下标为i=8,那么check的内容是“阿”的下标,而base是“阿根廷”的下标的基值。“廷”的序列码为x=8,那么“阿根廷”的下标为base+x=base[8]+8=12。
复制代码
二、 基本操作与存在问题

1, 查询
trie树的查询过程其实就是一个DFA的状态转移过程,在双数组中实现起来比较简单:只需按照状态标志进行状态转移即可.例如查询“阿根廷”,先根据“阿”的序列码b=2,找到状态“阿”的下标2,再根据“根”的序列码d=4找到“阿根”的下标base+d=8,同时根据check[base+d]=b,表明“阿根”是某个词的一部分,可以继续查询。然后再找到状态“阿根廷”。它的下标为y=12,此时base[y]<0,check[y]=base+d=8,表明“阿根廷”在词表中,查询完毕。
复制代码
查询过程中我们可以看到,对于一个词语的查询时间是只与它的长度相关的,也就是说它的时间复杂度为O(1).在汉语中,词语以单字词,双字词居多,超过三字的词语少之又少.因此,用双数组构建的trie树词典查询是理论上中文机械分词中的最快实现。

2, 插入与删除
双数组的缺点在于:构造调整过程中,每个状态都依赖于其他状态,所以当在词典中插入或删除词语的时候,往往需要对双数组结构进行全局调整,灵活性能较差。

将一个词语插入原有的双数组trie树中,相当于对DFA增加一个状态。首先我们应根据查询方法找出该状态本应所处的位置,如果该位置为空,那好办,直接插入即可。如果该位置不为空。那么我们只好按照构造时一样的方法重新扫描得出该状态已存在的最大前缀状态的BASE值,并由此依次得出该状态后继结点的BASE值。在这其中还要注意CHECK值的相应变化。

例如说,如果"阿拉根"某一天也成为了一个词,我们要在trie树中插入这一状态。按计算它的位置应在8,但8是一个已成状态.所以我们得重新确定"阿拉"这一最大已成前缀状态的BASE值.重新扫描得出BASE[10]=11。这样状态15为"阿拉根",且BASE[15]为负(成词),CHECK[15]=10;状态20为"阿拉佰",且BASE[20]=-4,CHECK=10。

这样的处理其实是非常耗时间的,因为得依次对每一个可能BASE值进行扫描来进行确定最大已成前缀状态的BASE值。这个确定过程在构造时还是基本可以忍受的,毕竟你就算用上一,两天来构造也没有问题(只要你构造完后可以在效运行即可)。但在插入比较频繁时,如果每次都需要那么长的运行时间,那确实是无法忍受的。

双数组删除实现比较简单,只需要将删除词语的对应状态设为空即可――即BASE值,CHECK均为设0。但它存在存在一个空间效率的问题.例如,当我们在上面删除"埃及"这一词语时,状态11被设为空。而状态10则成了一个无用结点――它不成词,而且在插入新词时也不可重用。所以,随着删除的进行,空状态点和无用状态点不断增多,空间的利用率会不断的降低。

三、 简单优化

优化的基本思路是将双数组trie树构建为一种动态检索方法,从而解决插入和删除所存在的问题。

1, 插入优化
在插入需要确定新的BASE值时,我们是只需要遍历空状态的。非空状态的出现意味着某个BASE值尝试的打败,我们可以完全不必理会。所以,我们可以对所有的空状态构建一个序列,在确定BASE值时只需要扫描该序列即可。
对双数组中的空状态的递增结点r1,r2, …, rm,我们可以这样构建这一空序列:
CHECK[ri]=−ri+1 (1 i m−1),
CHECK[rm]=−(DA_SIZE+1)
其中r1= E_HEAD,为第一个空值状态对应的索引点。这样我们在确定BASE值时只需扫描这一序列即可。这样就省去了对非空状态的访问时间。

这种方法在空状态并不太多的情况下可以很大程度的提高插入速度。

2, 删除优化
1) 无用结点
对于删除叶结点时产生的无用结点,可以通过依次判断将它们置为空,使得可在插入新词时得以重用。例如,如果我们删除了上例中的"阿根廷",可以看到"阿根"这一状态没有子状态,因此也可将它置为空。而"阿"这一状态不能置空,因为它还有两个子状态。

2) 数组长度的压缩
在删除了一个状态后,数组末尾可能出现的连续空状态我们是可以直接删除的。另外我们还可以重新为最大非空索引点的状态重新确定BASE值,因为它有可能已经由于删除的进行而变小。这们我们可能又得以删除一些空值状态。
分享到:
评论

相关推荐

    双数组Trie树算法优化及其应用研究.pdf

    接下来将详细介绍双数组Trie树算法的基本原理、优化策略以及其实验结果分析。 #### 双数组Trie树算法基础 Trie树(也称为前缀树或字典树)是一种用于存储具有公共前缀的字符串集合的树形数据结构。在传统的Trie树...

    基于双数组Trie_树中文分词研究

    #### 双数组Trie树基本原理 Trie树是一种用于高效存储和检索字符串数据的数据结构,特别适用于构建词典。对于给定的字符串α1, α2, …, αn,在Trie树中搜索最多只需要经过n次匹配即可完成一次查找,这使得它成为...

    DoubleArrayTrie(双数组Trie树)

    **DoubleArrayTrie(双数组Trie树)详解** DoubleArrayTrie(简称DAT),是一种高效的数据结构,常用于字符串的查找和匹配,特别是在分词检索、数据挖掘以及搜索引擎等领域有着广泛的应用。它是由日本学者高津陵...

    双数组字典树的-java实现,用于敏感词过滤

    ### 双数组字典树的基本原理 双数组字典树的核心是两个数组:`A[]`和`B[]`。`A[]`数组用于存储字符的前缀信息,而`B[]`数组则存储字符的后缀信息。这两个数组通过一定的关联关系相互配合,使得字符串的查找和匹配变...

    字典树 acm 数据结构

    【字典树与ACM竞赛】\n\n字典树,又称Trie树或前缀树,是一种高效的数据结构,广泛应用于ACM(国际大学生程序...但总的来说,掌握了双数组Trie的原理和操作,对于提升ACMer在字符串处理方面的竞争力有着显著的帮助。

    这是针对大数据集优化了的双数组字典树,使得在大数据集上构建速度也比较满意,查询速度不随数据集的增加而增加,同时解决了.zip

    双数组字典树(Double Array Trie,简称DAT)是一种高效的数据结构,主要用于字符串的存储和检索。这种数据结构由日本的原田康夫提出,它在处理大量字符串数据时表现出优秀的性能,尤其在查找和前缀匹配方面。本文将...

    trie数组的算法实现

    libdatrie 是一个由泰国开发者编写的开源库,它提供了构建和操作双数组 Trie 树的功能。双数组 Trie 是 Trie 数据结构的一种优化,通过使用两个数组 A 和 B,使得查找、插入和删除操作的时间复杂度达到 O(1)。这种...

    高阶哈夫曼算法的分析与实现(论文)

    在处理大规模数据时,双数组Trie树能够提供更优的性能。 在实现高阶哈夫曼算法时,选择合适的编程语言也至关重要。Delphi作为一种面向对象的编程语言,它丰富的类和对象机制能够帮助开发者封装算法的各个模块,实现...

    Improved DoubleArrayTrie

    双数组字典树原理** 双数组字典树的核心是两个数组:`A`和`B`。`A`数组用于存储字符,而`B`数组用于存储指向下一个字符位置的索引。在构建DAT时,从根节点开始,将每个字符串的字符依次插入,通过这两个数组建立一...

    高阶哈夫曼算法的分析与实现(源码)

    双数组Trie(ATrie)则是在Trie的基础上优化,提高了查询速度,降低了空间需求,适用于大量数据的码表存储。 总之,高阶哈夫曼算法是针对特定类型数据优化的压缩技术,通过考虑字符序列的频率来提升压缩效率。...

    java_da:双数组 Java 库

    在Java编程语言中,双数组是一种高级的数据结构实现,它结合了哈希表和Trie树(字典树)的优点,提供快速的查找和插入操作。这个名为"java_da"的库就是专门为Java开发者提供双数组实现的工具。 **双数组的原理与...

    stardict 源代码

    它基于高效的双数组Trie树结构,实现了快速的单词查找和定义展示。这种数据结构在处理大量词汇信息时表现出色,能够快速定位到目标词典条目。源代码中,你可以看到如何通过C/C++编程语言实现这个算法,这为我们提供...

    毕业设计开题报告

    另一种策略是利用优化的双数组Trie树,这种数据结构能够快速查找和匹配词汇,显著提升搜索速度。此外,通过回溯过程结合互信息消除歧义,尤其是交集型歧义,可以进一步提高分词的准确性。 然而,FMM算法的主要问题...

    网站架构技术

    双数组trie树 多级Hash表 信息降噪 分类算法_内容识别 黑名单 电子商务风险控制 风险 账户风险 买家风险 卖家风险 交易风险 风控 人工 自动 规则引擎 统计...

    SensitiveWordsFilter

    3. **双数组字典树(Double-Array Trie,DAT)**:DAT是Trie树的一种优化形式,它将Trie树的结构存储为两个数组,从而节省空间并提高查找效率。 4. **BF(Boyer-Moore)/BMH(Boyer-Moore-Horspool)字符串匹配算法...

Global site tag (gtag.js) - Google Analytics