后缀数组小结

后缀数组

后缀数组具体其实是指的 Rank, SA 和 height 数组,DA 和 DC3 只是计算的方式,并不是关键。

其中 Rank 数组的 Rank[i] 的含义是第 i 个后缀排名,SA[i] 的含义是排名第 i 的是哪一个后缀,height[i] 的含义是排名第 i 的后缀和排名第 i - 1 的后缀的最长公共前缀。

模板

DA 算法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
const int MAX = 200010;
const int SIGMA_SIZE = 1000010;

int cntA[MAX], cntB[MAX], sa[MAX], tsa[MAX], A[MAX], B[MAX], height[MAX], Rank[MAX];
int n, data[MAX];

int bucket[SIGMA_SIZE];

void get_SA(const int *ch) {
for (int i = 0; i < SIGMA_SIZE; i++) bucket[i] = 0;
for (int i = 1; i <= n; i++) bucket[ch[i - 1]]++;
for (int i = 1; i < SIGMA_SIZE; i++) bucket[i] += bucket[i - 1];
for (int i = n; i; i--) sa[bucket[ch[i - 1]]--] = i;
Rank[sa[1]] = 1;
for (int i = 2; i <= n; i++) {
Rank[sa[i]] = Rank[sa[i - 1]];
if (ch[sa[i] - 1] != ch[sa[i - 1] - 1]) Rank[sa[i]]++;
}
for (int l = 1; Rank[sa[n]] < n; l <<= 1) {
memset(cntA, 0, sizeof(cntA));
memset(cntB, 0, sizeof(cntB));
for (int i = 1; i <= n; i++) {
cntA[A[i] = Rank[i]]++;
cntB[B[i] = (i + l <= n) ? Rank[i + l] : 0]++;
}
for (int i = 1; i <= n; i++) cntB[i] += cntB[i - 1];
for (int i = n; i; i--) tsa[cntB[B[i]]--] = i;
for (int i = 1; i <= n; i++) cntA[i] += cntA[i - 1];
for (int i = n; i; i--) sa[cntA[A[tsa[i]]]--] = tsa[i];
Rank[sa[1]] = 1;
for (int i = 2; i <= n; i++) {
Rank[sa[i]] = Rank[sa[i - 1]];
if (A[sa[i]] != A[sa[i - 1]] || B[sa[i]] != B[sa[i - 1]]) Rank[sa[i]]++;
}
}
for (int i = 1, j = 0; i <= n; i++) {
if (j) j--;
while (ch[i + j - 1] == ch[sa[Rank[i] - 1] + j - 1]) j++;
height[Rank[i]] = j;
}
}

不需要初始化,直接调用 get_SA() 传入数组地址即可,下标均从 1 到 n,n 代表长度。

DC3

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
const int MAX = 200233;
const int maxn = MAX;

int n;
char data[MAX];

#define F(x) ((x)/3+((x)%3==1?0:tb))
#define G(x) ((x)<tb?(x)*3+1:((x)-tb)*3+2)
int wa[maxn], wb[maxn], wv[maxn], WS[maxn];
int Rank[MAX], height[MAX], r[MAX * 3], sa[MAX * 3];
int limit[MAX];

int c0(int *r, int a, int b) {
return r[a] == r[b] && r[a + 1] == r[b + 1] && r[a + 2] == r[b + 2];
}

int c12(int k, int *r, int a, int b) {
if (k == 2) return r[a] < r[b] || r[a] == r[b] && c12(1, r, a + 1, b + 1);
else return r[a] < r[b] || r[a] == r[b] && wv[a + 1] < wv[b + 1];
}

void sort(int *r, int *a, int *b, int n, int m) {
int i;
for (i = 0; i < n; i++) wv[i] = r[a[i]];
for (i = 0; i < m; i++) WS[i] = 0;
for (i = 0; i < n; i++) WS[wv[i]]++;
for (i = 1; i < m; i++) WS[i] += WS[i - 1];
for (i = n - 1; i >= 0; i--) b[--WS[wv[i]]] = a[i];
return;
}

void dc3(int *r, int *sa, int n, int m) {
int i, j, *san = sa + n, ta = 0, tb = (n + 1) / 3, tbc = 0, p;
int *rn = r + n;
r[n] = r[n + 1] = 0;
for (i = 0; i < n; i++) if (i % 3 != 0) wa[tbc++] = i;
sort(r + 2, wa, wb, tbc, m);
sort(r + 1, wb, wa, tbc, m);
sort(r, wa, wb, tbc, m);
for (p = 1, rn[F(wb[0])] = 0, i = 1; i < tbc; i++)
rn[F(wb[i])] = c0(r, wb[i - 1], wb[i]) ? p - 1 : p++;
if (p < tbc) dc3(rn, san, tbc, p);
else for (i = 0; i < tbc; i++) san[rn[i]] = i;
for (i = 0; i < tbc; i++) if (san[i] < tb) wb[ta++] = san[i] * 3;
if (n % 3 == 1) wb[ta++] = n - 1;
sort(r, wb, wa, ta, m);
for (i = 0; i < tbc; i++) wv[wb[i] = G(san[i])] = i;
for (i = 0, j = 0, p = 0; i < ta && j < tbc; p++)
sa[p] = c12(wb[j] % 3, r, wa[i], wb[j]) ? wa[i++] : wb[j++];
for (; i < ta; p++) sa[p] = wa[i++];
for (; j < tbc; p++) sa[p] = wb[j++];
return;
}

void cal_height(int *r, int *sa, int n) {
int i, j, k = 0;
for (i = 1; i <= n; i++)
Rank[sa[i]] = i;
for (i = 0; i < n; height[Rank[i++]] = k)
for (k ? k-- : 0, j = sa[Rank[i] - 1];
r[i + k] == r[j + k]; k++);
}

不需要初始化,r 和 sa 数组开最大值的三倍,调用如下

1
2
3
r[n] = 0;
dc3(r, sa, n + 1, 256);
cal_height(r, sa, n);

r 数组下标从 0 开始,数组的后面加一个最小值,计算 sa 数字时让长度 + 1,这样求出的 Rank 和 SA 的取值都是 1 到 n 。

数组用法

强烈推荐集训队论文 《后缀数组——处理字符串的有力工具》