《JavaScript正在表达式迷你书》非常好的一本书,一直都没有耐心好好读完,开始吧。
正则表达式是匹配模式,要么匹配字符,要么匹配位置。
看着这一篇,可以明白一下问题?
- 模糊匹配的两种方式:横向模糊和纵向模糊 分别是什么?
- 什么是字符组以及排除字符组?
- 什么是量词?
- 贪婪匹配和惰性匹配分别怎么实现?
- 多选分支是怎么实现?
什么是横向模糊匹配?
一个正则可匹配的字符串的长度不是固定的,可以是多种情况。
其实现方式是使用量词
,例如{m,n}
。表示连续出现最少m
次,最少n
次。
比如正在/ab{2,5}c/
表示匹配一个字符串,第一个是a
,第二个b
存在2~5次。最后是c
。
var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbbc "
console.log(string.match(regex));
// [ 'abbc', 'abbbc', 'abbbbbc' ]
其实就是数量,你要描述你想要多少个,而方式就是放在形容数量的后面。
什么是纵向模糊匹配?
一个正在匹配的字符串,其中的一个字符可以不是一个具体的,而是其中的一个就可以。
比如你想要找朋友去开黑,你有四个朋友。
var regex = /a[1234]b/g;
var string = "a1b a2b a3b a4b";
console.log(string.match(regex));
//[ 'a1b', 'a2b', 'a3b', 'a4b' ]
就是说我这些朋友里,都可以,没有想到你们都在,那就走吧。
它是使用数组来表示的,表达的含义是数组中符合的就可以
什么是字符组以及排除字符组?
需要强调的是,虽然叫字符组,但只是其中的一个字符,而不是全部啊。
例如[abc]
表示的是a
,b
,c
他们三个中的任意一个都可以。
而如果字符组里的字符特别多的话,可以使用范围表示法
例如[123456789]
可以表示为[1-9]
.
[abcdefghigklmnopqrstuvwxyz]
可以表示为[a-z]
.
而排除字符组则是字符组的取反。
[^abc]
表示除了a
,b
,c
之外的字符。
所以这里引出了常用的简写形式。
字符组 | 具体含义 |
---|---|
\d | 表示[0-9],表示一位数字,记忆方式:英文是digit
|
\D | \d的取反,表示[0-9]之外的任意字符 |
\w | 表示[0-9a-zA-Z_] 表示数字,大小写字符,和下划线。记忆方式:w是word的简写,也称为单词字符。 |
\W | 表示[^\w] ,上面的取反,[^0-9a-zA-Z_] . |
\s | 表示[\t\v\n\r\f] ,表示空白符,包括空格,水平制表符,垂直制表符,换行符,回车符,换页符。 |
\S | 表示[^\t\v\n\r\f] ,非空白符 |
. | 表格通配符。[^\n\ru2028\u2029] ,通配符,表示几乎任意字符。换行符,回车符,行内分隔符和段内分隔符除外。 |
什么是量词 ?
量词也称做重复。可以重复多少次,或者说你想要多少个?可以记住一些量词的简写。
量词 | 具体含义 |
---|---|
{m,} | 表示最少出现m次,后面没有,但是有, 表示后面不限制 |
{m} | 等价于{m,m}表示出现m次 |
? | 等价于{0,1}次,表示可以有或者没有,记忆的方式可以是:有吗? |
+ | 等价于{1,}表示最少出现一次,多了不限制。 |
* | 任意次。 |
贪婪匹配和惰性匹配
上面的量词学习完以后,你就已经知道了,所谓贪婪就是尽量多的匹配。而惰性匹配就是满足一次就够了,主要通过?
来实现。
惰性量词 | 贪婪量词 |
---|---|
{m,n}? | {m,n} |
{m,}? | {m,} |
?? | ? |
+? | + |
*? | * |
什么是多选分支 ?
多选分支就是,一个正则表达式由多个子模式组成。 它是通过管道符来实现的。|
例如:p1 | p2 | p3
const regex = /good|nice/g
const string = "good iead,nice try"
console.log(string.match(regex));
// [ 'good', 'nice' ]
匹配字符,无非就是字符组,量词,分支结构的组合使用。
通过上面的描述语句来描述,你想要寻找的对象,是高还是矮,是胖还是瘦,量词则表示你想要多少个,分支结构则表示你想要多少个类型。
案例分析
匹配16进制颜色值
用白话语言描述出你要找的东西,然后用字符组,量词,分子结构的组合来描述你的描述。
16进制颜色值它的描述是什么呢?
#ffbbad
#fc01Df
#FFF
#ffe
- 表格一个16 进制的字符,它由数字,
a-f
或者A-F
的字符构成 - 其中字符出现的次数可以是3次或者6次,
用正在的语言描述上面的。
- 可以用
[0-9a-zA-Z]
来表示字符组。 - 可以用量词和分支结构来表示 3 次和6次的情况
var regex = /#([0-9a-zA-Z]{3}|[0-9a-zA-Z]{6})/g
匹配时间
23:01
02:07
描述:
分析 | 描述 | |
---|---|---|
共四位,第一位可能的数字012
|
[0-2] |
|
当第一位是2时,第二位是0-3,其他的情况是0-9 | `[0-1][0-9] | [2][0-3]` |
第三位数字是0-5 | [0-5] |
|
第四位数字是0-9 | [0-9] |
var regex = /^([0-1][0-9]|[2][0-3]):[0-5][0-9]$/g
console.log(regex.test("23:54"))
//true
如果匹配7:9
,也就是时和分之前的0要省略。可以通过惰性匹配?
来实现。
问号,表示{0,1}
个
var regex = ^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/g
console.log(regex.test("7:9"))
//true
匹配日期
比如格式是:yyyy-mm-dd
2017-06-10
语言描述这样:
- 年,四位数字
[0-9]{4}
- 约,共12个月,分两种情况
01,02...09
和10,11,12
,(0[1-9]|1[0-2])
- 日,最大31天,可以用
(0[1-9]|[12][0-9]|3[01])
然后组合起来就是:
var regex = /^[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[12][0-9]|3[01])$/g
console.log(regex.test("2021-09-20"))
//True
当前其中的特殊情况我们并没有做处理。