正则表达式入门

字数 1782阅读 34
image.png

简书不维护了,欢迎关注我的知乎:波罗学的个人主页

上篇博文简单体验了正则表达式,文中最后在示例引入正则表达式的元字符。本篇博文将在此基础上继续介绍关于正则的知识。涉及内容元字符介绍,字符匹配位置匹配,还有关于重复正则的设置。不涉及太多高级特性,目标是帮助大家掌握正则的基本使用。

元字符

元字符是正则里面的一些特殊符号,用来代指一些特殊的含义。
元字符或许类似于编程语言中的关键词,了解了各个关键词的使用,对语言的语法就有了基本的掌握。同样掌握了元字符,基本掌握了正则表达式的使用,并对正则的各种使用场景有了清楚的认识,。

上篇博文中已经列举了一些元字符,如

  • \b代表单词边界
  • {}用于指定重复规则,如1{3},表示重复出现3次1
    等等

当然,还有很多其他元字符,如

  • \w代表数字、字母、下划线这类字符
  • \s代表空白符,包括空格,水平制表符等
  • $代表文本结尾位置
    等等

这里只展示了部分,在后面介绍正则的具体使用时会涉及更多。

注:当不需要元字符的特殊功能时,可以使用”\”转义,使用其本义,这种用法是不是感觉似曾相识呢?

字符匹配

字符匹配用于匹配某类字符,可分为自定义与预定义

  • 自定义字符类,利用正则的语法把一些字符归类,如p、[123456789]、[a-z]等
  • 预定义字符类,将某些常用规则预定义为一类,用元字符表示,如数字为\d

自定义字符类

自定义匹配规则多多,这里先介绍关于自定义正则的基本编写。首先下面列出关于定义字符匹配的一些元字符

[]      指定字符范围的左右边界,其中列出的所有字符都满足匹配规则-       指定连续字符的两端字符,其之间字符都匹配,如a-z,即表示小写字母^       当^符号在[]时,^表示反义,如[^a-z]表示不是小写字母的字符

示例演示,目标是搜索出不是数字、字母、下划线与空格的字符。测试文本如下

_ a , b . i - 2 ^ 3 \ C 5 9 A 

可以很容易看出这里面有四个规则,即

  • 数字
  • 字母,注意是大小写字母
  • 下划线
  • 空格

但这里指定的前提是不满足上面四个规则,则正则表达式为[^0-9a-zA-Z_ ]
下面为正则验证工具的测试结果

[图片上传中...(image-e5c0a7-1551886971882-4)]

从上图可看出,这里匹配到了**, . - ^ \ **这五个符号,排除了我们指定的那些字符,完成我们的目标

掌握单个字符的自定义规则应该是用好正则的基石吧,即使有了下面要说的预定义字符类。

预定义字符类

预定义字符类是把我们常用的一些字符类预定义,并用特定的元字符表示,如数字类的自定义正则为[0-9],而其预定义正则为\d。

已知预定义的字符类如下

.       匹配换行符以外的任意字符,等价于[^\n]
\d      匹配数字,等价于[0-9]
\D      \d的反义,匹配不是数字的字符,等价于[^0-9]
\w      匹配字母、数字、下划线,等价于[0-9a-zA-Z_],当选中unicode模式,支持汉字匹配
\W      \w的反义,匹配不是数字、下划线、字母的字符,等价于[^0-9a-zA-Z_]
\s      匹配空白字符,包括空格、tab等空白字符,等价于[\t\n\x0B\f\r]
\S      \s的反义,匹配不是空白字符的字符,等价于[^\t\n\x0B\f\r]...

上面都是一些预定义的正则规则,说明中也列出了其对应的自定义规则。将这些常用规则预定义好,我们使用起来也很是方便。

示例演示,假设现有文本如下

xxw 3d ja xxw 1 23 xuj2 23d xa2 23 

找出其中所有满足连续为3个字母、数字或下划线(即\w),1个空格与1个数字连接的文本,可以写出正则为”\w\w\w\s\d”。验证工具测试结果为

image

如上,找出了所有满足条件的文本,如”xxw 3”。如果要支持中文,需选择支持unicode模式,如下所示

image

可以看出,这里除了选择了全局模式(g)外,还支持了unicode模式(u)。这样就可以实现对中文匹配的支持了。关于正则表达式中的模式这里暂不详细介绍。

位置匹配

位置匹配主要用于匹配指定的位置,既不占用空间,也不代表特定字符,如开头、结尾和单词边界等。如果上面的字符匹配,我们希望匹配规则只作用于文本开头,就用到了位置匹配。

正则表达式中关于位置匹配元字符如下

^       匹配文本开始位置$       匹配文本结尾位置\b      匹配单词边界位置\B      匹配非单词边界位置

还是上面同样的文本,但是这次只匹配开头位置的文本。则可写出正则如^\w\w\ws\d,即在上例的正则前面加了元字符^,测试结果如下

image

上图可以看出,此次只有开头的”xxw 3”被匹配到了。如需匹配文本结尾,则正则为\w\w\w\s\d$。还是比较容易理解的哦。

注:这些标示位置的元字符不代表任何特定字符

重复

细心的朋友可能已经注意到,这里在匹配三个\w字符时,连续写了3次\w\w\w。如果我们需要匹配100个\w,是不是需要写100个\w。当然不是,这就需用到元字符中的重复特性了。

正则表达式中关于重复设置如下

?       出现零次或一次+       出现一次或多次*       出现任意次{n}     出现n次 {n,m}   出现n到m次 {n,}    至少出现n次 {0,m}   至多出现m次,属于{n,m}的一种,但比较特殊就单独列出

上面可以满足我们对于查找重复字符所有需求了吧!

好,那么我们下一个目标是,从下面的文本中找出所有至少6个字母的单词

I do not know what I do now is right, those are wrong, and when I finally Laosi when I know these. So I can do now is to try to do well in everything, and then wait to die a natural death.Sometimes I can be very happy to talk to everyone, can be very presumptuous, but no one knows, it is but very deliberatelycamouflage, camouflage; I can make him very happy very happy, but could not find the source of happiness, just giggle.

首先字母的限定需使用[a-zA-Z]指定,最少6个字母,即为 {6,},则正则表达式为\b[a-zA-Z]{6,}\b

使用验证工具测试结果如下

image

从上图可以看出,所有的6个及以上字母的单词都已被搜索了出来,如finally,everything等,其更多的搜索规则如下

  • 如需找出小于6个字母的单词,正则为\b[a-zA-Z]{0,5}\b
  • 如需找出至少1个字母的单词,正则为\b[a-zA-Z]+\b
  • 如需找出为1个字母的单词,正则为\b[a-zA-Z]{1}\b
  • 如需找出单词开头为大写字母的单词,正则为\b[A-Z][a-zA-Z]\b*

了解了重复规则,那上面提到的匹配1000个\w就容易实现了,即\w{1000}

到这里,关于正则基本使用介绍结束。各位读者多多包涵多多建议,谢谢。

推荐阅读更多精彩内容