「基因组注释」MITE-Hunter鉴别基因组的MITE序列

背景篇

MITE属于II类非自主转座因子,并且在真核生物中存在大量的拷贝。 MITE长度大约是500bp,并且扩增速度非常快。2013年一篇发表在NAR的文章"P-MITE: a database for plant miniature inverted-repeat transposable elements", 作者统计了各个物种中MITE的数目

MITE在不同物种的数目

目前主要有两大家族,Stowaway和Tourist,分别来自于Tc1/Mariner和PIF/Harbinger超家族。一个典型MITE结构如下:

MITE结构

MITE-Hunter从基因组上搜索II类转座因子,如MITE(miniature inverted repeat transposable elements),以及长度低于2kb的非自主转座因子。MITE-Hunter的分析流程如下图所示,主要分为五步:

  1. 根据MITE的结构特征搜索候选的TE
  2. 通过配对序列联配(Pairwise Sequence Alignment, PSA) 过滤假阳性
  3. 得到模板序列
  4. 基于多序列比对(Multiple Sequence Alignment, MSA)进一步过滤假阳性,构建一致性序列,并预测TSD
  5. 将一致性序列进行分组,归类到不同家族。
分析流程

注:

  • TIR: terminal inverted repeats 末端反向重复
  • TSD: target site duplication 靶点重复

安装篇

安装MITE-Hunter之前,先要安装其他三个软件:

http://target.iplantcollaborative.org/mite_hunter.html下载,进入解压后的文件夹中,运行如下安装命令

perl MITE_Hunter_Installer.pl \
  -d /opt/biosoft/MITE_Hunter/ \  #MITE_hunter解压缩后的文件夹路径
  -f /opt/biosoft/blast-2.29/formatdb \ # formatdb的路径
  -b /opt/biosoft/blast-2.29/blastall \ #blastall的路径
  -m /opt/biosoft/mdust/mdust \ # mdust的路径
  -M /opt/biosoft/muscle/muscle #muscle的路径

使用篇

下面的操作中,假设你下载了拟南芥的基因组,并且命名为TAIR10.fa

MITE-Hunter只要求单个输入文件,但是有很多参数需要调整。

perl MITE_Hunter_manager.pl \
  -i TAIR10.fa \
  -g thaliana \
  -n 5 \
  -S 12345678 \
  -P 1 &

参数说明:

核心的三个参数:

  • -i 输入的基因组序列
  • -P:使用多少比例的序列去搜索TE,对于700Mb以下的基因组用1. 参数可以设置为1/(实际基因组大小/700),例如人类基因组是3G, 那么就可以是0.25.
  • -g: 输出文件名的前缀

其他参数, 除了改改线程数以外,基本上都是无脑用作者的默认参数。

  • -w: 最大能发现的TE长度,默认是2000
  • -c: CPU数, 默认是5
  • -n: 最多有多少组,默认5.
  • -d: 这个参数过滤低复杂度序列,例如"AAAAA...", "TATATATATA...", "GGGG..", 默认是0.2,也就是预测TE序列要是超过20%。后续还有一个 -p 参数和该参数一样,不知道作者是怎么想的。
  • -f: MITE两翼的序列长度(默认60), 用于判断TE是否为真。
  • -t: 最短TIR(terminal inverted repeat)的长度, 默认10,用于寻找候选的TE
  • -M: TSD(the longest target site duplication)的长度,默认10,用于寻找候选的TE
  • -l: TIR区域所允许的最大错配碱基数, 默认1.
  • -L: 默认是 90, 表示两个TE至少有 90 bp 相似的序列,才会被归为一组
  • -I: 默认是 80, 表示两个TE要是 80% 以上的相似度就会被归为一组。
  • -m: TE最多少要有多少拷贝数,默认是3.
  • -T: 作者不推荐你修改。参数默认是"TA_"表示候选TE必须包含2bp即"TA"的TSD。
  • -C: 默认0,表示MITE_Hunter会使用找到的TE的全部序列进行搜索,寻找是否有其他拷贝,如果设置为1,则表示只用前后200bp去搜索。
  • -A: 默认是90,表示如果TE中有超过90bp的低复杂度序列,则过滤。
  • -S: MITE-Hunter一共有8步,你可以用"12"先只运行前2步,然后用"345678"运行后续的几步。
  • -F : 0 或1, 默认MITE_hunter会自动处理
  • -s: 没有具体说明作用

输出文件

MITE-Hunter的输出文件包括分组后的一致性TE序列及其对应多重联配文件。其中以".aln.elite"结尾的文件便是多重序列联配结果文件(MSA)。文件名中有"Step8_"的文件则包含TE一致性序列,每个文件都是一个TE家族,除了"Step_8.singlet"和"Step_8.paired". 前者里的TE在基因组上没有相似的同源序列,后者是潜在的复合TE序列。

你还可以手动检查输出结果,过滤一些假阳性。例如通过检查MSA文件,根据能否确定TIR和TSD的位置判断预测的TE是否真实存在

案例

以及将预测的TE在http://target.iplantcollaborative.org/进行检索,判断一个TE是否是有多个其他TE组成。

覆盖度一致,说明是单个TE
覆盖度不一致,说明是复合TE

最后合格的序列,或者直接将输出文件,Step8_*.fa” 和 “Step8_singlet.fa”候选的MITE序列,你可以将其命名为MITE.lib,用作后续的RepeatMasker输入.

推荐阅读

其他的一些MITE软件: MITE Digger, RSPB

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容