大致题意:
求出一个字符串(len<=10 000)中包含多少个出现至少两次的子串,且相同的子串互相不会覆盖
大致思路:
求出后缀数组和height数组之后,对每个后缀,求出所有和她公共前缀大于0的后缀中,构成合法子串数量的最大值。
一开始只想着用单纯O(n)的办法来解决,实际上由于字符串的特性,这个算法的覆盖度还是接近o(n)的
#include<iostream> #include<cstdio> #include<cstring> using namespace std; const int nMax = 20000; int num[nMax]; int sa[nMax], rank[nMax], height[nMax]; int wa[nMax], wb[nMax], wv[nMax], wd[nMax]; int cmp(int *r, int a, int b, int l){ return r[a] == r[b] && r[a+l] == r[b+l]; } void da(int *r, int n, int m){ // 倍增算法 r为待匹配数组 n为总长度 m为字符范围 int i, j, p, *x = wa, *y = wb, *t; for(i = 0; i < m; i ++) wd[i] = 0; for(i = 0; i < n; i ++) wd[x[i]=r[i]] ++; for(i = 1; i < m; i ++) wd[i] += wd[i-1]; for(i = n-1; i >= 0; i --) sa[-- wd[x[i]]] = i; for(j = 1, p = 1; p < n; j *= 2, m = p){ for(p = 0, i = n-j; i < n; i ++) y[p ++] = i; for(i = 0; i < n; i ++) if(sa[i] >= j) y[p ++] = sa[i] - j; for(i = 0; i < n; i ++) wv[i] = x[y[i]]; for(i = 0; i < m; i ++) wd[i] = 0; for(i = 0; i < n; i ++) wd[wv[i]] ++; for(i = 1; i < m; i ++) wd[i] += wd[i-1]; for(i = n-1; i >= 0; i --) sa[-- wd[wv[i]]] = y[i]; for(t = x, x = y, y = t, p = 1, x[sa[0]] = 0, i = 1; i < n; i ++){ x[sa[i]] = cmp(y, sa[i-1], sa[i], j) ? p - 1: p ++; } } } void calHeight(int *r, int n){ // 求height数组。 int i, j, k = 0; for(i = 1; i <= n; i ++) rank[sa[i]] = i; for(i = 0; i < n; height[rank[i ++]] = k){ for(k ? k -- : 0, j = sa[rank[i]-1]; r[i+k] == r[j+k]; k ++); } } int abs(int a){ if(a>0)return a; return -a; } char str[nMax]; int main(){ int i,j,k,sp,n,len; while(scanf("%s",str)!=EOF){ sp=31; n=0; len=strlen(str); cout<<len<<endl; for(i=0;i<len;i++){ num[i]=str[i]-'a'+1; }num[len]=0; da(num,len+1,sp); calHeight(num,len); int res=0,lcp,tmp; for(i=2;i<=len;i++){ if(height[i]==height[i-1])continue; int h=lcp=height[i]; tmp=0; for(j=i;j<=len;j++){ if(height[j]==0)break; lcp=min(lcp,height[j]); int a=min(lcp,abs(sa[j]-sa[i-1])); if(a>height[i-1]&&a!=0){ tmp=max(tmp,a-height[i-1]); } } res+=tmp; } cout<<res<<endl; } return 0; }
相关推荐
后缀数组是字符串处理中的一个重要概念,它在解决与字符串相关的问题时表现出强大的威力。罗穗骞的《后缀数组——处理字符串的有力工具》详细介绍了这一数据结构及其应用,包含算法源码和解题源码,对于学习者来说是...
后缀数组是字符串处理中的一种重要数据结构,它在算法竞赛(如ACM)和实际编程问题中有着广泛的应用。本文将深入探讨后缀数组及其相关知识点,帮助你更好地理解和运用这一工具。 后缀数组(Suffix Array)的概念...
后缀数组是字符串处理中的一种重要数据结构,它在计算机科学特别是文本算法领域扮演着关键角色。后缀数组能够提供一种高效的方式来存储和查询字符串的后缀,这使得它成为解决许多字符串问题的有效工具,例如查找模式...
后缀数组是字符串处理中的一个重要数据结构,尤其在算法竞赛(如OI)和文本处理领域广泛应用。罗穗骞,可能是某位知名的OI教练或专家,提供了关于后缀数组的源码和相关题目,帮助学习者深入理解这一概念。 后缀数组...
### 后缀数组的概念与用法 #### 一、引言 后缀数组作为一种重要的数据结构,在字符串处理领域有着广泛的应用。相比于后缀树,后缀数组不仅在实现上更为简便,而且在空间效率上也表现出明显优势。本文旨在详细介绍...
后缀数组是一种在计算机科学中用于处理字符串的高效数据结构,尤其在文本处理和字符串搜索领域有着广泛应用。本文将深入探讨后缀数组及其相关概念,包括SA(Suffix Array)、Height、RMQ(Range Minimum Query)以及...
3. **秩数组Rank**:对于一个长度为n的字符串S及其后缀数组SA,秩数组Rank是一个长度为n的数组,其中Rank[SA[i]] = i,即Rank数组记录了每个后缀在后缀数组中的位置。 4. **高度数组Height**:对于一个长度为n的字符...
后缀数组是一种高效处理字符串的数据结构,在信息学竞赛和许多字符串处理的实际应用中占据着重要地位。它不仅与后缀树具有相似的功能,而且在编程实现上更加简洁,占用内存也更少,成为后缀树的一个实用替代品。 一...
后缀数组是计算机科学中一种重要的数据结构,主要用于处理字符串问题。它在字符串搜索、模式匹配、DNA序列分析等领域有着广泛的应用。后缀数组的概念首次由Manber和Myers在1993年提出,其核心思想是将一个字符串的...
后缀数组是一种在字符串处理中极其重要的数据结构,由许智磊在IOI2004国家集训队论文中介绍。它是一个一维数组,包含字符串的所有后缀按照字典顺序排序后的起始索引。后缀数组的构建是通过特定算法实现的,如O(nlogn...
后缀数组是计算机科学中处理字符串的一种重要数据结构,它在文本索引、字符串搜索、生物信息学等领域有着广泛的应用。后缀数组的概念源于1990年代,由Udi Manber首次提出,其核心思想是将一个字符串的所有后缀按照...
《基于压缩后缀数组的字符串搜索库解析》 在信息技术领域,高效地处理字符串搜索问题至关重要,尤其是在大数据分析和文本挖掘等应用场景中。压缩后缀数组(Compressed Suffix Array, CSA)作为一种节省存储空间的...
后缀数组的构造和应用基础 后缀数组是一种数据结构,用于处理字符串的搜索和匹配问题。它将字符串的所有后缀排序后的结果储存在一个数组中,每个元素 sa[i] 储存的是排名为 i 的后缀的开始位置。后缀数组的构造可以...
后缀数组是计算机科学中的一个重要概念,尤其在字符串处理领域。它是一种数据结构,用于存储一个字符串的所有后缀,并将它们以特定的排序方式排列。在处理大规模数据集时,后缀数组被广泛应用于搜索引擎、文本压缩、...
后缀数组的实现和应用 后缀数组是处理字符串的有力工具之一,它可以高效地解决许多字符串问题。下面我们将详细介绍后缀数组的实现和应用。 后缀数组的实现 后缀数组是指一个字符串的所有后缀的排序结果。其中,SA...
本篇文章将探讨四个关键概念:树状数组、后缀数组、字典树以及多串匹配算法,这些都属于字符串处理和高效计算的重要工具,并提供一些实际应用的启示。 1. **树状数组(Counting Array / Fenwick Tree)** 树状数组...
后缀数组是一种在字符串处理中非常重要的数据结构,它被广泛应用于信息学竞赛和算法设计中。后缀数组可以看作是一系列字符串后缀的排序,其中每个元素都是原字符串的一个后缀,按字典序排列。相比于后缀树,后缀数组...