正则表达式学习笔记

简介

正则表达式是一种描绘字符串样貌的语言,用来匹配字符串。它不属于某种特定编程语言,其身影几乎无所不在,甚至是VIM等编辑器的重要组成部分。使用正则表达式能显得高端、优雅,因为它难。

下面总结下学习心得。

基本套路:

正则描述字符串的基本方法是:

元素名 + 数量

例如,匹配1个或多个’A':A+
其中,字符'A'原封不动,“+”是一个“限定符”,描述数量,代表一个或多个。

再例如,匹配连续3个数字:\d{3}
其中,\d是一个“元字符”,代表一个数字,限定符{3}指定数量为3个。

(元字符指有特殊含义的字符,限定符指指示数量的字符)

掌握了这个基本原则,就能看懂一半正则表达式了。

元素名

普通字符

普通字符直接写,例如abc,就能匹配字符串abcde中的abc。

元字符

想表达特殊含义需要用元字符,常用的有:

代码 说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字

指定范围

想表达某个范围用方括号包起来[],中括号视为一个整体,代表一个字符

代码 说明
[ABC] ABC中的一个
[A-Z] 从A到Z中的一个
[0-9a-zA-Z_] 等价于\w
[^abcd] 反义字符组,匹配任意不在括号内的字符。也可以写成[^a-d]

(^出现在方括号里是转义的意思,其它地方用来描述“开始位置”)

转义:

有时很不巧,需要匹配元字符本身,就需要转义,即元字符前面加反斜杠'\'

比如查找一对[],应为:\[\]

如果查找\本身,应为:\\

数量

常用限定符

代码 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

以上,有了元素名+数量的组合就能匹配大多模式了。

例如
\d{5,12},匹配“连续5到12个数字”,如1234567;
\w+[1-9]匹配“一个或多个字符+从1到9的一位数字”,如a1或abc9。

但有时需要描述得更精确些,例如指定只能出现在开始或结束位置等。

再精确点

位置

要描述有些字符只能在开头或结尾出现,就需要描述位置。

代码 说明
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

匹配8位电话号码时,可以使用:^\d{8}$,限制了开始结束,整个字符串都要与其匹配,这样就过滤掉了a12345678,或12345678bcd。

分组:

小括号()依然是传统意义上的分组。

例如,(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。

除了分组外,()还有“捕获”的功能,配合指示符使用可以表示匹配项,\1\9代表第n个括号分组匹配的文本。

例如:
\b(\w+)\b\s+\1\b可以用来匹配重复的单词,像go go, 或者kitty kitty。其中\1代表第一个括号匹配的内容。

(注意:\1\9必须与()一起服用)

分支:

也就是正则表达式中的“或”,用“|”表示。

123|abc匹配字符串123或abc

注意不要再用多余的方括号[]了!常见错误,匹配(555)或555,写成:[(\(\d{3}\))|\d{3}]。正确写法是:(\(\d{3}\))|\d{3}

以上是正则表达式的基本套路。

参考资料:

正则还有很多知识,可以参考:

正则表达式30分钟入门教程

Learn Regular Expressions (RegEx) with Ease

Javascript RegExp参考文档

测试工具:

在线测试工具

小结

一点经验是,复杂的正则表达式可以先拿出纸笔写一写,因为手写可以有层次分明的括号和间隔,看起来能稍微清晰点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,710评论 4 376
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,839评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,295评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,776评论 0 223
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,198评论 3 297
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,074评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,200评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,986评论 0 214
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,733评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,877评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,348评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,675评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,393评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,209评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,212评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,003评论 2 280

推荐阅读更多精彩内容

  • [TOC] 什么是正则表达式? 正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格...
    Selen_Lin阅读 520评论 0 0
  • 原文参考自: https://www.jianshu.com/p/681d3e07fb0f 一、原理概论 1、正则...
    Rui哥阅读 523评论 0 2
  • 正则表达式练习题点击这里 创建一个正则表达式 使用一个正则表达式字面量,其由包含在斜杠之间的模式组成,如下所示: ...
    打铁大师阅读 1,215评论 0 6
  • 自从年前得空写了两篇文章之后就开始忙了,这一忙就是2个月😭。当时信誓旦旦说的定期写篇博客的计划也就泡汤了🤣,不过好...
    景科同学阅读 1,125评论 0 9
  • 一.正则表达式匹配原则 占有字符和零宽度 在正则表达式匹配过程中,如果子表达式匹配到的是字符内容,并被保存在结果之...
    Coree阅读 494评论 0 0