Patricia Tree 简称PAT tree。
它是 trie 结构的一种特殊形式。是目前信息检索领域应用十分成功的索引方
法,它是1992年由Connel根据《PATRICIA——Patrical Algorithm to Retrieve Information Coded in Alphanumeric》算法发展起来的。
PAT tree 在字符串子串匹配
上有这非常优异的表现,这使得它经常成为一种高效的全文检索算法,在自然语言处理领域也有广泛的应用。其算法中最突出的特点就是采用半无限长字串(semi-infinite string 简称 sistring)
作为字符串的查找结构。
采用半无限长字串(sistring):
一种特殊的子串信息存储方式。
比如一个字符串CUHK。它的子串有C、CU、CUH、CUHK、U、UH、UHK、H、HK、K十种。如果有n个字符的串,就会有n(n+1)/2种子串,其中最长的子串长度为n。因此我们不得不开辟
n(n+1)/2个长度为n的数组来存储它们,那么存储的空间复杂度将达到惊人的O(n^3)级别。
但是我们发现这样一个特点:
CUHK —— 完全可以表示
C、CU、CUH、CUHK
UHK —— 完全可以表示
U、UH、UHK
HK —— 完全可以表示
H、HK、
K —— 完全可以表示
K
这样我们就得到了4个sistring: CUHK、UHK、HK和K。
PAT tree的存储结构
如果直接用单个字符作为存储结点,势必构造出一棵多叉树(如果是中文字符的话,那就完蛋了)。检索起来将会相当不便。事实上,PAT tree是一棵压缩存储的二叉树结构。现在我们用“CUHK”来构造出这样一棵PAT tree 。
开始先介绍一下PAT tree的结点结构(看了后面的过程就再来理解这些概念)
* 内部结点:用椭圆形表示,用来存储不同的bit位在整个完整bit sequence中的位置。
* 外部节点(叶子结点): 用方形表示,用来记录sistring的首字符在完整sistring中的开始位置(字符索引)和sistring出现的频次。
* 左指针:如果
待存储的sistring在
内部结点所存储的bit位置上的数据
是0,则将这个sistring存储在该结点的左子树中。
* 右指针:若数据是1,则存储在右子树中。
(1) 将所有sistring的字符转化成1 bytes的ASCII码值,用二进制位来表示。形成一个bit sequence pattern(没有的空字符我们用0来填充)。
sistring bit sequence
完整sistring ->
CUHK
010
00011 01010101 01001000 01001011 <- 完整bit sequence
UHK0
010
10101 01001000 01001011 00000000
HK00
01001000 01001011 00000000 00000000
K000
01001011 00000000 00000000 00000000
(2) 从第一个bit开始我们发现所有sistring的前3个bit位都相同010,那么相同的这些0/1串对于匹配来说就毫无意义了,因此我们接下来发现第4个bit开始有所不同了。UHK 的第4个bit是1,而CUHK、HK、K的第4个bit是0。则先构造一个内部结点iNode.bitSize=4(第4个bit),然后将UHK的字符索引 cIndex=2(UHK的开始字符U在完整的CUHK的第2位置上)构造成叶子结点插入到iNode的左孩子上,而CUHK、HK、K放在iNode右子树中。(如下图2)
(3) 递归执行第2步,将CUHK、HK、K进一步插入到PAT tree中。流程如下图所示。所有sistring都插入以后结束。
注意:既然PAT tree
是二叉查找树,那么一定要满足二叉查找树的特点。所以,内部结点中的bit
位就需要满足,左孩子的bit
位<
结点bit
位<
右孩子的bit
位。
PAT tree的检索过程
利用PAT tree可以实现对语料的快速检索,检索过程就是根据查询字串在PAT tree中从根结点寻找路径的过程。当比较完查询字串所有位置后,搜索路径达到PAT tree的某一结点。
若该结点为叶子结点,则判断查询字串是否为叶子结点所指的半无限长字串的前缀,如果判断为真,则查询字串在语料中出现的频次即为叶子结点中记录的频次;否则,该查询字串在语料中不存在。
若该结点为内部结点,则判断查询字串是否为该结点所辖子树中任一叶子结点所指的半无限长字串的前缀。如果判断为真,该子树中所有叶子结点记录的频次之和即为查询字串的出现频次。否则,查询字串在语料中不存在。
这样,通过PAT tree可以检索原文中任意长度的字串及其出现频次,所以,PAT tree也是可变长统计语言模型优良的检索结构。
例如:要查找string=
“CU
”(bit
sequence=010
00
0
1
1
01010101)
是不是在CUHK
中。
(1)
根据“CUHK
”的PAT tree
结构(
如上图)
,根结点r
的bit position=4
,那么查找bit sequence
的第4
个bit=0
。然后查找R
的左孩子rc
。
(2)
rc
的bit position=5
,在bit sequence
的第5
个bit=0
。则查找rc
的左孩子rcc
。
(3)
rcc=
”
CUHK
”
已经是叶子结点了,则确定一下CU
是不是CUHK
的前缀即可。
PAT tree 的效率
特点:PAT tree查找的时间复杂度和树的深度有关,由于树的构造取决于不同bit位上0,1的分布。因此PAT tree有点像二叉查找树
,最坏情况下是单支树(如上图例子),此时的时间复杂度是O(n-1),n为字符串的长度。最好情况下是平衡二叉树
结构,时间复杂度是O(log2(N))。另外,作为压缩的二叉查找树,其存储的空间代价大大减少了。
PAT tree的实际应用
PAT tree在子串匹配上有很好的效率,这一点和Suffix Tree(后缀树),KMP算法的优点相同。因此PAT tree在信息检索和自然语言处理领域是非常常用的工具。比如:关键字提取,新词发现等NLP领域经常使用这种结构。
分享到:
相关推荐
【宫水三叶的刷题日记】:子串匹配1主要关注的是计算机科学中的字符串处理技术,特别是子串匹配算法的应用。子串匹配是搜索一个字符串(子串)在另一个字符串(主串)中出现的位置的过程。这个话题通常出现在编程...
直接删除s串中与t串相同的子串
假设我们有两个字符串str1和str2,我们想找到这两个字符串之间的最长公共子串。我们可以定义一个二元函数f(m,n),它表示以str1[m]和str2[n]结尾的连续公共子串的长度。那么,我们可以根据以下两种情况来计算f(m+1,n+...
求解最大子序列、最长递增子序列、最长公共子串、最长公共子序列. http://blog.csdn.net/ssuchange/article/details/17341693
字符串的子串删除问题 在本文中,我们探讨了Codeforces Round ...我们使用树状数组和线段树来维护字符串的信息,并使用suffix array和LCP array来找到所有的子串。总的时间复杂度是n·log2(n),总的空间复杂度是O(n)。
标题“查找主串中出现的子串的首位置.zip”和描述“抓穿中查找出现的子串的首先位置(kmp/sunday算法实现)”涉及到了字符串匹配算法,特别是KMP(Knuth-Morris-Pratt)算法和Sunday算法。这两种算法都是为了高效地...
在IT领域,尤其是在编程语言如C中,字符串(串)是一种基本的数据结构,用于存储和处理文本信息。本文将深入探讨“串的基本操作定长顺序存储表示”,包括初始化串、复制串、判断串是否为空、比较两个字符串、计算...
标题中的“+1和-1和最大的子串”是一个经典的计算机科学问题,它涉及到数组、字符串处理以及动态规划等概念。这个问题的目标是在一个由+1和-1组成的序列中找到和最大的连续子序列(子串),这里的“和”指的是子序列...
设s和t是给定的两个串,在主串s中找到等于子串t的过程称为模式匹配,如果在s中找到等于t的子串,则称匹配成功,函数返回t在s中的首次出现的存储位置(或序号),否则匹配失败,返回-1。t也称为模式。 简单的模式匹配...
总结来说,这个程序通过定长顺序存储结构(字符数组)实现了对字符串的处理,找到两个字符串的最长公共子串。虽然效率不高,但对于学习理解和实践字符串处理基本概念是非常有用的。同时,该程序还展示了如何从文件中...
本文实例讲述了C语言求两个字符串的最长公共子串的方法。分享给大家供大家参考。具体实现方法如下: #include "stdio.h" #include "string.h" #include "stdlib.h" void getCommon(char str1[],char str2[],char * ...
第一重循环确定第一个字符串的对齐位置,第二重循环确定第二个字符串的对齐位置,每次循环确定一组两个字符串的对齐位置,并从此对齐位置开始匹配两个字符串的最长子串,如果匹配到的最长子串比已知的最长子串长,则...
输入两行字符串s和t(s和t可以含空格,length(t)≤length(s)≤50),将s串中首次与t匹配的子串逆置,并将处理后的s串输出。 【输入形式】 输入文件为当前目录下的invertsub.in。文件中有两行字符串s和t,...
用C 语言描述的数据结构的方法创建一个串,然后将其中某个子串T替换为另一个子串S
总的来说,解决“在母串中查找某子串出现的最后位置”的问题需要理解字符串处理的基本原理,并可能涉及到一些高级的字符串搜索算法。无论是简单线性搜索还是更复杂的KMP或Boyer-Moore算法,都有其适用场景和优缺点,...
总的来说,KMP算法是一种非常实用的字符串匹配算法,尤其在处理大量主串与固定子串匹配的问题时,它的优势更为明显,因为它减少了重复计算,提高了效率。在实际应用中,如文本分析、数据挖掘等领域,KMP算法都有着...
大整数计算器最长公共子串数据结构课设,沈阳工程学院
实现这个算法时,我们可以先创建一个辅助函数来生成KMP部分匹配表,接着编写一个函数用于实际的字符串处理,该函数会遍历逆序字符串,每次遇到匹配的子串时,从原始字符串中删除它。为了保证删除操作不会破坏原始...
输入两行字符串s和t(s和t可以含空格,length(t)≤length(s)≤50),将s串中首次与t匹配的子串逆置,并将处理后的s串输出。 【输入形式】 输入文件为当前目录下的invertsub.in。 文件中有两行字符串s和t,分别以...