模式匹配和文本挖掘

一:在蛋白质序列中探索磷酸化模体
在蛋白质序列中搜索磷酸化motif,并返回第一个出现的motif

import re
seq = "VSVLTMFRYAGWLDRLYMLVGTQLAAIIHGVALPLMMLI"
regexp = re.compile('[ST]Q')   ##设定一个正则表达对象来匹配SQ或TQ
match = regexp.search(seq)   ##若序列中包含regexp子串,则返回Match对象,否则返回None。
if match:
    print(match.group(),match.start(),match.end())
else:
    print('no match')
TQ 21 23

search()函数扫描字符串并寻找正则表达式第一次匹配的位置,需要注意的是search()方法返回的是Match object而不是直接返回字符串

如果想找到所有的匹配该怎么做?

这里用到findall()和finditer();
findall()返回所有匹配的子字符串列表(list)
finditer()返回所有匹配对象的迭代器形式,可以用for循环实现遍历

#### findall()
import re
seq = "VSVLTMFRYAGWLDRLYMLVGTQLAAIIHGVALPLMMLI"
regexp = re.compile('[MY]M')
match = regexp.findall(seq)
if match:
    print(match)
else:
    print('no match')
['YM', 'MM']
#### finditer()
import re
seq = "VSVLTMFRYAGWLDRLYMLVGTQLAAIIHGVALPLMMLI"
regexp = re.compile('[MY](.)L')
match = regexp.finditer(seq)
if match:
    for iter in match:
        print(iter.group())
        print(iter.span())
        print(iter.start())
        print(iter.end())
else:
    print('no match')
YML
(16, 19)
16
19
MML
(35, 38)
35
38

1.分组

有时候会将一个正则表达式分为若干个子组,来匹配不同的部分,比如想要知道.匹配了什么氨基酸,可以将她用圆括号括起来以创建一个组,然后使用group()方法得到相匹配的氨基酸类型。

  • group()方法不填写参数或参数为0,则返回完全匹配的字符串;子组从1开始自左向右编号。
import re
seq = "VSVLTMFRYAGWLDRLYMLVGTQLAAIIHGVALPLMMLI"
regexp = re.compile('[NY](.)(L)')   ##用圆括号括起来以创建一个组,这里两个子组
match = regexp.finditer(seq)
if match:
    for iter in match:
        print(iter.group())
        print(iter.group(1))  ##打印(.)匹配的
        print(iter.group(2))  ##打印(L)匹配的
else:
    print('no match')
YML
M
L
  • 也可以向group()方法中传递多个参数,得到各个子组的元组。
print(iter.group(2,1))
('L', 'M')
  • 也可以用groups()方法返回一个包含所有与子组相关的元组。
print(iter.groups())
('M', 'L')

2.修改字符串

re模块提供了三种修改字符串的方法:

  • split(s)
  • sub(r,s,[c])
  • subn(r,s,[c])
    split(s)方法将分割符合正则表达式的字符串,产生一个列表。在下面的例子中,实现了一个字符串在|处分割,又因为|是元字符所以需要加反斜杠转义。
    1. split()
import re
separator = re.compile('\|')
annotation = 'ATOM:CA|RES:ALA|CHAIN:B|NUMRES:166'
columes = separator.split(annotation)
print(columes)

['ATOM:CA', 'RES:ALA', 'CHAIN:B', 'NUMRES:166']
    1. sub(r,s,[c])返回新字符串
import re
separator = re.compile('\|')
annotation = 'ATOM:CA|RES:ALA|CHAIN:B|NUMRES:166'
new_annotation = separator.sub('@',annotation)
print(new_annotation)

ATOM:CA@RES:ALA@CHAIN:B@NUMRES:166
  • 3.subn(r,s,[c]) 返回一个含两个元件的tuple,第一个为新字符串,第二个为替换的数量
import re
separator = re.compile('\|')
annotation = 'ATOM:CA|RES:ALA|CHAIN:B|NUMRES:166'
new_annotation = separator.subn('@',annotation)
print(new_annotation)

('ATOM:CA@RES:ALA@CHAIN:B@NUMRES:166', 3)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容