KMP

一,kmp算法的原理:
字符串匹配是计算机的基本任务之一。它所执行的任务就是在一个文本(较长的字符串)中查找是否包含着当前指定的模式字符串(较短的字符串),并找到其位置,这就是字符串匹配问题。注:在算法导论里面待搜索的词叫“模式”字符串,并用P来表示,本文有的地方叫他“待搜索词”。如无特殊说明数组下标以0为起始。举例来说,有一个长字符串"BBC ABCDAB ABCDABCDABDE"(即文本串),我想知道里面是否包含另一个模式字符串"ABCDABD",它的位置在哪呢?
1,朴素匹配算法过程:
1).


首先,长字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的第一个字符,进行比较。因为B与A不匹配,所以搜索词后移一位。
2).

因为B与A不匹配,搜索词再往后移。
3).

就这样,直到长字符串有一个字符,与搜索词的第一个字符相同为止(准备开始位置不变搜索下一个字符)。
4).

接着比较字符串和搜索词的下一个字符,还是相同。
5).

但是后面的有可能是不完全匹配的,这时在长字符串中遇到一个字符与搜索词对应的字符不相同。
6).

最自然的反应是,将搜索词整个后移一位,再从头逐个比较。这样做虽然可行,但是效率很差,因为你要把搜索位置BCD这一段又要重比一次,然而它的比较在直到了后面有“AB”与前面的“AB”对称的情况下是可以避免的,直到遇到"AB"才萌发新的可能使整个字符匹配的可能性。

2,KMP匹配算法过程:
****1).


接着前面的匹配过程,现在来看:一个基本事实是,当空格与D不匹配时,你其实知道前面六个符"ABCDAB"已经匹配的部分。KMP算法的想法是,设法利用这个搜索词的子串(就是搜索词的某个前缀)的已知对称值,注意这里的对称非中心对称,而是基于搜索词的某一个前缀的对称信息,在不匹配的时候跳过一些不必要的位置来加速匹配速度,这样就提高了效率。
2).

怎么做到这一点呢(如何跳过不必要的位置在不匹配时)?可以针对搜索词,算出一张模式字符串的前缀函数表。这张表是如何产生的,后面再介绍,这里只要知道就可以了。
3).

已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查模式串的《前缀函数表》可知,其前缀(即ABCDAB)中的最后一个匹配字符B的位置对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数(直接将前面的对称信息调到后面的对称位置,跳过一些不必要的位置):
  移动位数 = 已匹配的字符数 - 当前已匹配字符串的部分匹配值

因为 6 - 2 等于4,所以将搜索词向后移动4位(之所以移动4,是因为搜索词的已匹配的前缀串“ABCDAB”的部分匹配值为2,即有“AB”对称,因为当前已匹配字符串的“AB”始终要找到下一个“AB”的开始位置,而这个开始位置恰好就在本字符串中的后缀中,所以直接移动4,我们可以最大减少匹配次数)。
4).



因为空格与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2 - 0,结果为 2,于是将搜索词向后移2位。
5).



因为空格与A不匹配,继续后移一位。
6).

逐位比较,直到发现C与D不匹配。于是,移动位数 = 6 - 2,继续将搜索词向后移动4位。
7).



逐位比较,直到搜索词的最后一位,发现完全匹配,于是搜索完成。如果还要继续搜索(即找出全部匹配),移动位数 = 7 - 0,再将搜索词向后移动7位,这里就不再重复了。

3,关于前缀函数表
****1)前缀和后缀


首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。
2).前缀函数表的产生

"前缀函数"的对称值(也叫部分匹配值)就是模式串的对应前缀中的"前缀"和"后缀"的最长的共有元素的长度(实质是最大对称程度)。以"ABCDABD"为例,
  - "A"的前缀和后缀都为空集,共有元素的长度为0;
  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2(“AB”是其最大对称串,长度为2);
  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

3).前缀函数表的意义



A,首相要搞清楚的是它是模式字符串的所有前缀产生的一张表,保存的值表征了最大对称度,我们一般用next数组来保存其某个前缀的对称值,例如next[6]=2,代表的就是模式串的某个有6个字符的前缀“ABCDAB”,这个前缀的对称度就是2,即“AB”是对称的。
B,模式串的某前缀的对称值的实质是,有时候,搜索词已经部分匹配了(一定是某个前缀),其某个前缀(已经匹配部分)的头部和尾部会有重复。比如,"ABCDAB"之中前缀有"AB",后缀也有"AB",那么它的"前缀函数对称值"就是2("AB"的长度,且“AB”是"ABCDAB"所有前缀和后缀中的最长公有元素)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置,在这个新的位置我们跳过了不必要的比较位置,并且直接就有“AB”匹配。

二,前缀函数表实现原理
  通过上文完全可以对kmp算法的原理有个清晰的了解,那么下一步就是编程实现了,其中最重要的就是如何根据待匹配的模式字符串求出其所有前缀函数表中的最大对称值,在下文中我们将其存储在next数组中。

1,编程策略:
1)、当前字符的前面所有字符的对称程度为0的时候,只要将当前字符与前面这个子串的第一个字符进行比较。这个很好理解啊,前面所有字符串的对称值都是0,说明都不对称了,如果多加了一个字符,要对称的话只能是当前字符和前面字符串的第一个字符对称。比如“ABCDA”这个里面"ABCD"的最大对称值是0,那么后面的A的对称程度只需要看它是不是等于前面字符串的第一个字符A相等,如果相等就增加1,如果不相等那就保持不变,显然还是为0。

2)、按照这个推理,我们就可以总结一个规律,不仅前面是0呀,如果前面字符串的的最大对称值是1(k),那么我们就把当前字符与前面字符串的第二(k)个字符即P[1](P[k])进行比较,因为前面的是1(k),说明前面的字符已经和第一(k)个字符相等了,如果这个又与第二(k+1)个相等了,说明对称程度就是2(k+1)了。有两(k+1)个字符对称了。比如上面“ABCDA”的最大对称值是1,说明它只和第一个A对称了,接着我们就把下一个字符“B”与P[1](即第二个字符)比较,又相等,自然对称程度就累加了,就是2了。
但是如果不相等呢?那么这个对称值显然要减少,并且我们只能到前面去寻找对称值,而在找的过程我们同时也利用前缀函数表快速搜索找到与当前字符匹配的位置。比如假设是“(AGCTAGC)(AGCTAGC)T”(请无视字符串中的括号,只为方便看出对称),显然最后一个T的前一个位置的对称度是7,说明T的前一个位置的7个字符的后缀必与7个字符的前缀相等,然而T!=P[7],说明T位置的对称度只能是比7小的长度的前缀,所以递减k值,递减为多少呢?当前字符前一个位置的对称度为k=next[13]=7,显然必须以7为基准减少,即在前缀长度为7以内的范围重新寻找以T结尾的前缀,所以k=next[6],再接着判断是否相等,

3)、按照上面的推理,我们总是在找当前字符P[q](q为遍历到的位置下标,见下面程序)通过其前一个位置的对称值判断是否与P[k]相等,如果相等,那么加,如果不相等,那么就减少k值,重新寻找与与P[q]相等的元素位置

#include<iostream>
#include<cstring>
#include<string>
#include<algorithm>
using namespace std;
const int MAXN = 1000;
int next2[MAXN];

void  getnext(string str)
{
       memset(next2, 0, sizeof(next2));

       next2[0] = -1;
       int i = 0;
       int j = -1;
       while (i < str.size())
       {

              if (j == -1 || str[i] == str[j])
              {
                     i++;
                     j++;
                     next2[i] = j;

              }
              else
              {
                     j = next2[j]  ;
              }

       }

}

int kmp(string str, string substr)
{

       int i, j;
       i = -1;
       j = -1;
       int size = str.size();
       while (i < size)
       {
              if (j == -1 || str[i] == substr[j])
              {
                     i++;
                     j++;
                     if (j == substr.size())
                           return i - j;

              }
              else
                     j = next2[j];


       }
       return 0;
}

int main()
{
       string str;
       string substr;
       while (cin >> str >> substr)
       {

              getnext(substr);

              for (int i = 0; i < substr.size(); i++)
                     cout << next2[i] << " ";
                cout<<kmp(str, substr);
       }

       return 0;
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容