「Python标准库:re」如何在Python中使用正则表达式

Python的正则表达式

Python通过导入标准库re实现正则表达式(regular expression),Python的正则表达式引擎和Perl一样,并且兼容Perl流派的元字符。

元字符

Python支持的元字符很多,一种是比较常见,我之前也就只会用这些

  • .表示任意一个字符,默认不匹配换行符,制表符
  • |表示或,ca|bd会匹配ca或bd,而不是cab, cbd, 如果想要匹配后者,则需要用到()进行分组
  • ^,$表示位置符号,行首和行尾 如^ab$匹配ab, 不匹配eab, abe,aeb
  • 量词,表示重复数,*任意多次, +一次以上, ?0次或一次, {m,n}m~n次, {m}重复m次,{m,}重复大于m次
  • 在上述量词后接?, 就从贪婪模式变为非贪婪模式。举个例子,对于abbbbbb这个字符串,ab*ab*?的结果不同,前者匹配abbbbbb,后者匹配a,也就是贪婪模式尽可能多匹配。
  • [...]表示多选项,比如a[bc]就可以匹配ab,ac, 如果是[a-z]那么表示从a到z范围. 所有元字符在[]中都会被认为是普通字符。所有元字符在[]
  • (...)表示捕获型分组,被(...)匹配到部分,可以用\1,\2进行引用
  • "" 表示转义,由于该符号也是字符串的元字符,那么在构建模式的时候要万分小心,因为Python会先对字符串进行加工,然后才会传入到正则引擎中。也就是说,也就是如果你想匹配"" , 你的模式写法得是\\\\,因为如果只写\\,会被Python先翻译成\,所以必须写成\\\\。因此建议用使用原始字符串(raw string),即r"\\"

下面的一些比较高级,在我写作时能记得的元字符,基本上都是(?...)一类的增强型标记,具体含义和?后紧接的第一个字符有关

  • (?:...): 非捕获型分组,也就是仅仅分组,正则引擎不会记住他用于后续引用
  • (?=...): 向后检查,要求当前位置后符合...表示的模式, (?!...)也是向后检查,只不过要求当前位置紧接的内容不能被...匹配
  • (?<=...)(?<!...)是向前检查。

在《精通正则表达式》中,作者举了一个例子,将"12345679"变为更容易阅读的"12,345,679"形式。 也就是找到一个位置前面是数字,后面是3的倍数个数字的位置插入逗号

re.sub(r"(?<=\d)(?=(\d\d\d)+$)",",","1234567")

下面是我需要翻阅资料才能记得

  • (?P<name>...): 在之前捕获型括号的基础上,将捕获到的内容赋值给name, 其中该内容可以用(?P=name)进行引用
  • (?#...): 这个仅仅是注释,不做任意匹配
  • (?aiLmsux)比较复杂,记不太起来
  • (?(id/name)yes-pattern|no-pattern)更加复杂,需要举一个例子。(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)来解释,当然这个例子理解起来也不容易。解释起来就是,第一个括号先尝试捕获匹配<, 编号为1,然后是第二个括号匹配“字符串@字符串”,比如说user@host,然后第三个括号表示不捕获分组, 识别".com"这类,然后第四个括号就是看第一个括号有没有捕获到东西,如果有就去匹配>,没有则是匹配行尾。也就是你的邮箱地址要么为"user@host.com",要么为<user@host.com>,其他都是不符合要求。

常用函数

一般用法都是用re.compile构建一个正则表达式对象,这个正则表达式对象可以用在re.match,re.search,re.find,re.findall等函数里,同时该对象也有.match,.search方法。举个例子,比如说你知道了一个形如GSExxx的GEO编号,你需要提取这个编号下的所有GSMxxx编号,然后根据这个GSMxxx编号去提取SRA编号,以随便找的GSE100566为例。

首先利用Python的requests库抓取网页信息

# Python
import re
import requests
base_url = "https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc="
acc      = "GSE101571"

resp = requests.get(base_url + acc)
contents = resp.text()

然后构建一个正则表达式,去捕获所有的GSMxxx类型的编号

pattern = "GSM\d+"
GSM_acc = re.findall(pattern, contents)

或许你不满足于此,你还希望捕获到每个GSM编号后的描述,也就是"GSM2686880 SET-2_STAT1-D1",这两个部分你都需要。通过检查网页元素,你发现了一个规律,也就是这两个元素是在一个tr

HTML结构

你信心满满的构建了一个匹配模式,结果啥都没有匹配到

pattern = re.compile("<tr><td.*?><a.*?>(GSM\d+)</a></td><td.*?>(.*?)</td>")
re.search(pattern, contents)

你发现这似乎由于这个HTML里有很多神奇的空白和"\n",原本方便人类阅读的记号却阻碍了数据处理,你必须做点什么,你想到了可以用re.sub进行替换,所以你做了如下的事情

contents = re.sub(r"\n\s*","",contents)

最后你终于用原来的匹配模式得到了以元组数据结构的结果

result = re.findall(pattern, contents)

下一步根据GSMxxx编号去提取SRX编码。这一步的核心就是从元祖中提取元素,然后构建一个url去爬取新的网页,然后提取SRX编号即可以。先测试第一个,

r1 = results[0][0]
r1_resp = requests.get(base_url + r1)
m = re.search("SRX\d+", r1_resp.text)
m.group(0)

然后开始遍历,存储到字典中。考虑到网络延迟所耽误的时间远远大于内存分配的时间,也就没有必须要预先分配内存空间。

sra_dict = {}
for acc in results:
    key = acc[0]
    resp = requests.get(base_url + key)
    value = re.search("SRX\d+",resp.text).group(0)
    sra_dict[key] = value

事实证明网络不好,这个简单的程序是可以跑半天的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268