正则表达式入门

image.png

简书不维护了，欢迎关注我的知乎：波罗学的个人主页

上篇博文简单体验了正则表达式，文中最后在示例引入正则表达式的元字符。本篇博文将在此基础上继续介绍关于正则的知识。涉及内容元字符介绍，字符匹配，位置匹配，还有关于重复正则的设置。不涉及太多高级特性，目标是帮助大家掌握正则的基本使用。

元字符

元字符是正则里面的一些特殊符号，用来代指一些特殊的含义。
元字符或许类似于编程语言中的关键词，了解了各个关键词的使用，对语言的语法就有了基本的掌握。同样掌握了元字符，基本掌握了正则表达式的使用，并对正则的各种使用场景有了清楚的认识，。

上篇博文中已经列举了一些元字符，如

\b代表单词边界
{}用于指定重复规则，如1{3}，表示重复出现3次1
等等

当然，还有很多其他元字符，如

\w代表数字、字母、下划线这类字符
\s代表空白符，包括空格，水平制表符等
$代表文本结尾位置
等等

这里只展示了部分，在后面介绍正则的具体使用时会涉及更多。

注：当不需要元字符的特殊功能时，可以使用”\”转义，使用其本义，这种用法是不是感觉似曾相识呢？

字符匹配

字符匹配用于匹配某类字符，可分为自定义与预定义

自定义字符类，利用正则的语法把一些字符归类，如p、[123456789]、[a-z]等
预定义字符类，将某些常用规则预定义为一类，用元字符表示，如数字为\d

自定义字符类

自定义匹配规则多多，这里先介绍关于自定义正则的基本编写。首先下面列出关于定义字符匹配的一些元字符。

[]      指定字符范围的左右边界，其中列出的所有字符都满足匹配规则-       指定连续字符的两端字符，其之间字符都匹配，如a-z，即表示小写字母^       当^符号在[]时，^表示反义，如[^a-z]表示不是小写字母的字符

示例演示，目标是搜索出不是数字、字母、下划线与空格的字符。测试文本如下

_ a , b . i - 2 ^ 3 \ C 5 9 A

可以很容易看出这里面有四个规则，即

数字
字母，注意是大小写字母
下划线
空格

但这里指定的前提是不满足上面四个规则，则正则表达式为[^0-9a-zA-Z_ ]
下面为正则验证工具的测试结果

[图片上传中...(image-e5c0a7-1551886971882-4)]

从上图可看出，这里匹配到了**, . - ^ \ **这五个符号，排除了我们指定的那些字符，完成我们的目标

掌握单个字符的自定义规则应该是用好正则的基石吧，即使有了下面要说的预定义字符类。

预定义字符类

预定义字符类是把我们常用的一些字符类预定义，并用特定的元字符表示，如数字类的自定义正则为[0-9]，而其预定义正则为\d。

已知预定义的字符类如下

.       匹配换行符以外的任意字符，等价于[^\n]
\d      匹配数字，等价于[0-9]
\D      \d的反义，匹配不是数字的字符，等价于[^0-9]
\w      匹配字母、数字、下划线，等价于[0-9a-zA-Z_]，当选中unicode模式，支持汉字匹配
\W      \w的反义，匹配不是数字、下划线、字母的字符，等价于[^0-9a-zA-Z_]
\s      匹配空白字符，包括空格、tab等空白字符，等价于[\t\n\x0B\f\r]
\S      \s的反义，匹配不是空白字符的字符，等价于[^\t\n\x0B\f\r]...

上面都是一些预定义的正则规则，说明中也列出了其对应的自定义规则。将这些常用规则预定义好，我们使用起来也很是方便。

示例演示，假设现有文本如下

xxw 3d ja xxw 1 23 xuj2 23d xa2 23

找出其中所有满足连续为3个字母、数字或下划线(即\w)，1个空格与1个数字连接的文本，可以写出正则为”\w\w\w\s\d”。验证工具测试结果为

image

如上，找出了所有满足条件的文本，如”xxw 3”。如果要支持中文，需选择支持unicode模式，如下所示

image

可以看出，这里除了选择了全局模式(g)外，还支持了unicode模式(u)。这样就可以实现对中文匹配的支持了。关于正则表达式中的模式这里暂不详细介绍。

位置匹配

位置匹配主要用于匹配指定的位置，既不占用空间，也不代表特定字符，如开头、结尾和单词边界等。如果上面的字符匹配，我们希望匹配规则只作用于文本开头，就用到了位置匹配。

正则表达式中关于位置匹配的元字符如下

^       匹配文本开始位置$       匹配文本结尾位置\b      匹配单词边界位置\B      匹配非单词边界位置

还是上面同样的文本，但是这次只匹配开头位置的文本。则可写出正则如^\w\w\ws\d，即在上例的正则前面加了元字符^，测试结果如下

image

上图可以看出，此次只有开头的”xxw 3”被匹配到了。如需匹配文本结尾，则正则为\w\w\w\s\d$。还是比较容易理解的哦。

注：这些标示位置的元字符不代表任何特定字符

重复

细心的朋友可能已经注意到，这里在匹配三个\w字符时，连续写了3次\w\w\w。如果我们需要匹配100个\w，是不是需要写100个\w。当然不是，这就需用到元字符中的重复特性了。

正则表达式中关于重复设置如下

?       出现零次或一次+       出现一次或多次*       出现任意次{n}     出现n次 {n,m}   出现n到m次 {n,}    至少出现n次 {0,m}   至多出现m次，属于{n,m}的一种，但比较特殊就单独列出

上面可以满足我们对于查找重复字符所有需求了吧！

好，那么我们下一个目标是，从下面的文本中找出所有至少6个字母的单词

I do not know what I do now is right, those are wrong, and when I finally Laosi when I know these. So I can do now is to try to do well in everything, and then wait to die a natural death.Sometimes I can be very happy to talk to everyone, can be very presumptuous, but no one knows, it is but very deliberatelycamouflage, camouflage; I can make him very happy very happy, but could not find the source of happiness, just giggle.

首先字母的限定需使用[a-zA-Z]指定，最少6个字母，即为 {6,}，则正则表达式为\b[a-zA-Z]{6,}\b

使用验证工具测试结果如下

image

从上图可以看出，所有的6个及以上字母的单词都已被搜索了出来，如finally，everything等，其更多的搜索规则如下

如需找出小于6个字母的单词，正则为\b[a-zA-Z]{0,5}\b
如需找出至少1个字母的单词，正则为\b[a-zA-Z]+\b
如需找出为1个字母的单词，正则为\b[a-zA-Z]{1}\b
如需找出单词开头为大写字母的单词，正则为\b[A-Z][a-zA-Z]\b*

了解了重复规则，那上面提到的匹配1000个\w就容易实现了，即\w{1000}。

到这里，关于正则基本使用介绍结束。各位读者多多包涵多多建议，谢谢。

最后编辑于：2019.05.17 11:55:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,757评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,478评论 1赞 289
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,540评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,593评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,903评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,329评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,659评论 2赞 309
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,383评论 0赞 195
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,055评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,337评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,864评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,227评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,820评论 3赞 231
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 25,999评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,750评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,365评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,260评论 2赞 258

正则表达式入门

元字符

字符匹配

自定义字符类

预定义字符类

位置匹配

重复

推荐阅读更多精彩内容