TBtools基因家族分析详细教程(1)

写在前面:
非常感谢CJ开发出如此强大的TBtools工具,作者详细讲解了基因家族的分析过程和意义,课程购买地址,讲的很棒,可以试听。

一共分为4个部分
TBtools基因家族分析详细教程(1)
TBtools基因家族分析详细教程(2)基因家族成员的基本分析
TBtools基因家族分析详细教程(3)基因家族成员的进化分析1
TBtools基因家族分析详细教程(3)基因家族成员的进化分析2


Introduciton:什么是|为什么做(意义)|
辅助基因注释或矫正基因注释
为后续物种gene功能研究做铺垫
确定家族中可用的目标gene分支(包括挖掘新分支)
基础的生物信息学数据分析锻炼
充实论文内容或作为论文的主要内容
method:怎么做(涉及内容,已发表文献和自己理解),涉及序列保守,结构域定义,序列比对,进化树构建
内容见下面
结果:完成基因家族分析文章中的内容,甚至超过他们。
加深理解分子生物学和生物信息学
掌握部分TBtools工具的使用,加速生信下游数据分析
绘制漂亮的图片

Introduction
基因是染色体上一段可以发生转录的区域(内含子外显子启动子)
转录本才是基因的研究实体
基因家族来源于同一个祖先,由同一个gene通过基因重复而产生两个或更多的拷贝而构成的一组gene,其在结构和功能上就有明显的相似性,编码相似的蛋白质产物,同意家族gene可以紧密排列在一起,形成一个基因簇,但多数时候,他们分散在同一染色体的不同位置,或存在于不同的染色体上,各自有不同的表达调控模式
序列高度相似的序列,互为同源gene,归属于一个基因家族(拷贝数目多于1)
结构域的 角度来说,具有保守结构域(某个或多个)的序列,即为某个基因家族的序列(可能同时要不具有另外的某个结构域)

目录

1 基因家族成员的鉴定

  • 确定研究的基因家族
  • 家族成员的基本特征确定(参考已有物种)
  • 参考序列集合的准备
  • 目标物种序列和注释信息的下载或准备
  • 双向Blast比对获取可能的成员
  • 基于保守结构域进行进一步筛选

2 基因家族成员的基本分析

  • 成员的序列特征分析(分子量等电点等)
  • 基于motif分析成员序列保守特征与可视化(蛋白与核酸,可用于挖掘未知,尤其是核酸水平-非编码水平的保守)
  • 基于domain分析成员结构域的保守型与可视化(往往已知)
  • 基因结构分析(包括内含子模式)
  • 基因染色体分布情况可视化

3 基因家族成员的进化分析

  • 多序列比对与可视化
  • 进化树构建与可视化
  • 从进化水平分析motif模式
  • 从进化水平分析domain
  • 从进化水平分析基因结构变化
  • 合并分析以上三方面
  • 基因-共线性的定义与常见算法原理
  • 物种内的共线性分析
  • 基因家族成员的来源分析
  • 不同物种之间的共线性分析
  • 共线性分析结果可视化

内容

A 基因家族成员的鉴定

1目标物种序列和注释信息的下载或准备(genome的fasta格式和gff3或gtf)

基因组序列信息:fasta格式文件
基因组基因结构注释信息:制表符分隔,存储基因的外显子内含子,CDS等坐标信息的.gff3或.gtf文件(区分基因结构注释与基因功能注释)

  • 获取途径
    基因组文章中对应的链接
    常见的数据库Ensemble植物,动物,Phytozome
    NCBI
    其他途径

1.1蛋白序列结合的整理与提取(TBtools)

1.1.1使用Gtf/Gff3 sequence extractor,基于基因结构注释信息,从基因组中提取出所有基因的CDS序列
image1.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
1.1.2使用CDS to protein Translator将所有CDS翻译为蛋白序列
image.png

fasta文件每个名称后面有+号,简化


2 确定研究的基因家族

  • 课题相关,MYB,bHLH,WD40,花青素
  • 研究热点甲基化 甲基化酶 去甲基化酶
  • 新家族 某蛋白很关键 有没有家族

3 家族成员的基本特征确定(参考已有物种)

  • 研究相对透彻的基因家族,可参考收录了基因家族特征的网站如TAIR,PlantTFdb(针对转录因子

  • 查阅文献(gras gene family为例),归纳总结
    注意:保守的结构域(在哪段),几个分支,保守的aa位点,长度波动

4 参考序列集合的准备

  • 从已经收录的网站下载tari
  • UniProt动植物都有
  • 自行整理(基于文献或自行鉴定的新家族)

5 双向Blast比对获取可能的成员

image.png
image.png
image.png

比对得到的结果,去重复得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列(target)的结果。
下面再extract上述42个ID的protein sequence的fasta数据

接下来去NCBI blastp

image.png

用TBtools把xml格式转化为table格式


image.png

按Query_def删除重复项,保留的都是第一个hit,也就是最匹配的hit。为了判断是不是全部都家族成员,可以对可疑的基因进行文献搜索
通过初步筛选,上述42个基本都是基因家族成员,为了进一步确定,进行下一步基于保守结构域进一步筛选

6 基于保守结构域进行进一步筛选

ncib web cd search
或pfam

image.png

可视化

image.png
image.png
image.png

pineapple的(这个图有问题,可以直接在修改short name列名就可以,注意空格等,这里我就不再改了,后面改过来了)


直接删除,若严谨,重新截取此基因组序列的前后序列,具体

image.png

打开genePose文件,查找刚才可疑的某个gene比如Aco005453.1


image.png

image.png

复制上述序列到softberry FGENESH-M工具

image.png
image.png

image.png

结果说明该基因本来该两个结构域,现在却一个。基因组注释需要更加完善。可以替换信息进去。其余三个类似。

推荐阅读更多精彩内容

  • 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sang...
    oddxix阅读 4,440评论 0 38
  • 刘小泽写于18.9.25今天接触到一个新名词——基因家族分析,不搜不知道,一搜吓一跳。2018年关于基因家族分析的...
    刘小泽阅读 3,744评论 0 62
  • 门对面是不完整的略显残酷的世界,即使这样的世界,她也竭尽全力试图去喜欢,我非常非常喜欢这样的她 在柔软的雨幕下,我...
    欢迎儿阅读 80评论 4 1
  • 你是真的渴望优秀? 还是,你觉得优秀了, 别人更看得起你?羡慕你? 你的父亲会对你更满意? 我一开始的答案是:我渴...
    尘若婵阅读 102评论 0 0
  • 今年8月初,老公给女儿买了本Photoshop CS6图像处理与实战应用,他要在电脑上下个Photoshop,结果...
    遇见为了预见阅读 96评论 0 0