不积跬步之第一章--正则字符匹配攻略

《JavaScript正在表达式迷你书》非常好的一本书，一直都没有耐心好好读完，开始吧。

正则表达式是匹配模式，要么匹配字符，要么匹配位置。

看着这一篇，可以明白一下问题？

模糊匹配的两种方式：横向模糊和纵向模糊分别是什么？
什么是字符组以及排除字符组？
什么是量词？
贪婪匹配和惰性匹配分别怎么实现？
多选分支是怎么实现？

什么是横向模糊匹配？

一个正则可匹配的字符串的长度不是固定的，可以是多种情况。

其实现方式是使用量词，例如{m,n}。表示连续出现最少m次，最少n次。

比如正在/ab{2,5}c/表示匹配一个字符串，第一个是a，第二个b 存在2~5次。最后是c。

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbbc "
console.log(string.match(regex));
// [ 'abbc', 'abbbc', 'abbbbbc' ]

其实就是数量，你要描述你想要多少个，而方式就是放在形容数量的后面。

什么是纵向模糊匹配？

一个正在匹配的字符串，其中的一个字符可以不是一个具体的，而是其中的一个就可以。

比如你想要找朋友去开黑，你有四个朋友。

var regex = /a[1234]b/g;
var string = "a1b a2b a3b a4b";
console.log(string.match(regex));
//[ 'a1b', 'a2b', 'a3b', 'a4b' ]

就是说我这些朋友里，都可以，没有想到你们都在，那就走吧。

它是使用数组来表示的，表达的含义是数组中符合的就可以

什么是字符组以及排除字符组？

需要强调的是，虽然叫字符组，但只是其中的一个字符，而不是全部啊。

例如[abc]表示的是a,b,c他们三个中的任意一个都可以。

而如果字符组里的字符特别多的话，可以使用范围表示法

例如[123456789]可以表示为[1-9].
[abcdefghigklmnopqrstuvwxyz]可以表示为[a-z].

而排除字符组则是字符组的取反。

[^abc]表示除了a,b,c之外的字符。

所以这里引出了常用的简写形式。

字符组	具体含义
\d	表示[0-9],表示一位数字，记忆方式：英文是`digit`
\D	\d的取反，表示[0-9]之外的任意字符
\w	表示`[0-9a-zA-Z_]`表示数字，大小写字符，和下划线。记忆方式：w是word的简写，也称为单词字符。
\W	表示`[^\w]`,上面的取反，`[^0-9a-zA-Z_]`.
\s	表示`[\t\v\n\r\f]`,表示空白符，包括空格，水平制表符，垂直制表符，换行符，回车符，换页符。
\S	表示`[^\t\v\n\r\f]`,非空白符
.	表格通配符。`[^\n\ru2028\u2029]`,通配符，表示几乎任意字符。换行符，回车符，行内分隔符和段内分隔符除外。

什么是量词？

量词也称做重复。可以重复多少次，或者说你想要多少个？可以记住一些量词的简写。

量词	具体含义
{m,}	表示最少出现m次，后面没有，但是有`,`表示后面不限制
{m}	等价于{m,m}表示出现m次
?	等价于{0,1}次，表示可以有或者没有，记忆的方式可以是：有吗？
+	等价于{1,}表示最少出现一次，多了不限制。
*	任意次。

贪婪匹配和惰性匹配

上面的量词学习完以后，你就已经知道了，所谓贪婪就是尽量多的匹配。而惰性匹配就是满足一次就够了，主要通过?来实现。

惰性量词	贪婪量词
{m,n}?	{m,n}
{m,}?	{m,}
??	?
+?	+
*?	*

什么是多选分支？

多选分支就是，一个正则表达式由多个子模式组成。它是通过管道符来实现的。|

例如：p1 | p2 | p3

const regex = /good|nice/g
const string = "good iead,nice try"
console.log(string.match(regex));
// [ 'good', 'nice' ]

匹配字符，无非就是字符组，量词，分支结构的组合使用。

通过上面的描述语句来描述，你想要寻找的对象，是高还是矮，是胖还是瘦，量词则表示你想要多少个，分支结构则表示你想要多少个类型。

案例分析

匹配16进制颜色值

用白话语言描述出你要找的东西，然后用字符组，量词，分子结构的组合来描述你的描述。

16进制颜色值它的描述是什么呢？

#ffbbad
#fc01Df
#FFF
#ffe

表格一个16 进制的字符，它由数字，a-f或者A-F的字符构成
其中字符出现的次数可以是3次或者6次，

用正在的语言描述上面的。

可以用[0-9a-zA-Z]来表示字符组。
可以用量词和分支结构来表示 3 次和6次的情况

var regex = /#([0-9a-zA-Z]{3}|[0-9a-zA-Z]{6})/g

1623337739579.jpg

匹配时间

23:01
02:07

描述：

分析	描述
共四位，第一位可能的数字`012`	`[0-2]`
当第一位是2时，第二位是0-3，其他的情况是0-9	`[0-1][0-9]	[2][0-3]`
第三位数字是0-5	`[0-5]`
第四位数字是0-9	`[0-9]`

var regex = /^([0-1][0-9]|[2][0-3]):[0-5][0-9]$/g
console.log(regex.test("23:54"))
//true

如果匹配7:9,也就是时和分之前的0要省略。可以通过惰性匹配?来实现。

问号，表示{0,1}个

var regex = ^(0?[0-9]|1[0-9]|[2][0-3]):(0?[0-9]|[1-5][0-9])$/g
console.log(regex.test("7:9"))
//true

image.png

匹配日期

比如格式是：yyyy-mm-dd

2017-06-10

语言描述这样：

年，四位数字 [0-9]{4}
约，共12个月，分两种情况01,02...09和10,11,12 ,(0[1-9]|1[0-2])
日，最大31天，可以用(0[1-9]|[12][0-9]|3[01])

然后组合起来就是：

var regex = /^[0-9]{4}-(0[1-9]|1[0-2])-(0[1-9]|[12][0-9]|3[01])$/g
console.log(regex.test("2021-09-20"))
//True

当前其中的特殊情况我们并没有做处理。