【生信课程】02生物数据库-山东大学-生物信息学

生物数据库

一级核酸数据库

NCBI https://www.ncbi.nlm.nih.gov/

EBI

DDBJ

insdc http://www.insdc.org/ 由三大数据库集合资源,共同维护。

示例:

  1. 搜索原核生物dUTPase基因,输入“X01714 ” 到Nucleotide 数据库= Genbank 数据库;基因的名字唯一一个,版本号有多个(更新时间,不同数据库)
    https://www.ncbi.nlm.nih.gov/nuccore/X01714

  2. 搜索编码真核生物人dUTPase的成熟mRNA序列信息:U90223 (mRNA检索号)
    https://www.ncbi.nlm.nih.gov/nuccore/U90223

  3. 搜索编码真核生物人dUTPase的基因组DNA序列信息:AF018430, gene="DUT"
    https://www.ncbi.nlm.nih.gov/nuccore/AF018430.1?report=genbank

基因组数据库

Ensemble http://www.ensembl.org/ (由EBI和sanger维护)

UCSC http://genome.ucsc.edu/

微生物宏基因组数据库

JCVI http://www.jcvi.org/cms/home/

人类基因组计划 http://hmp.jcvi.org/


二级核酸数据库


一级蛋白序列数据库

  • Swissport 人工注释蛋白序列数据库,可信度高

  • TrEMBL 计算机注释的蛋白序列数据库,剔除Swissprot中的序列。冗余度高、可信度低 (EBI、SIB共同管理)

  • PIR 蛋白质信息资源数据库,蛋白质组学和系统生物学研究的综合公共生物信息学资源(GUMC维护)

  • Uniprot 数据库 http://www.uniprot.org/(Swissprot、TrEMBL、PIR联合蛋白质序列数据库,Universal Protein Resource,Uniprot)

    • 第一层 UniParc:收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。
    • 第二层 UniRef:他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。
    • 第三层 UniProtKB,他有详细注释并与其他数据库有链接,分为 UniProtKB 下的 Swiss-Prot
      和 UniProtKB 下的 TrEMBL 数据库。(我们最常用)

示例

  1. 在Uniprot 数据库搜索“human dutpase”,
    http://www.uniprot.org/uniprot/?query=human+dutpase%E2%80%9D&sort=score

检索结果

  • Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号
  • Entry_Name 是检索名,检索号与检索名平行运行,都是一条序列在数据库中的唯一标识
  • 加星文档图标 代表Swissport中的数据
  • 物种信息

检索注释

  • Function,功能这部分注释很详细的说明了这个蛋白质的功能。
  • Names & Taxomomy 给出了蛋白质的各种名字,包括全称、缩写以及别名。
  • Subcellular location:提供蛋白质亚细胞定位(subcellular localization)的信息。
  • Pathology & Biotechnology:提供蛋白质突变或缺失导致的疾病及表型信息。
  • PTM/Processing:提供蛋白质翻译后修饰或翻译后加工的相关信息。
  • Expression:提供了基因在 mRNA 水平上的表达信息,或者在细胞中蛋白质水平上
    的表达信息,或者在不同器官组织中的表达信息。
  • Interaction:提供了蛋白质之间相互作用的信息。
  • Structure:提供蛋白质二级结构和三级结构信息。
  • Family & Domains:提供蛋白质家族及结构域信息。
  • Sequence:提供蛋白质氨基酸序列信息。
  • Cross-references:列出了所有通往其他含有该蛋白质信息的数据库的链接。
  • Publications:列出了有关这个蛋白质已发表的所有文献的信息。
  • Entry information:提供有关这条数据库记录的录入信息,外加一个免责声明。

UniProtKB 纯文本(Flat File)格式数据库记录条目索引含义表

iUniProtKB


一级蛋白结构数据库

蛋白质的结构可以分为四级。

  1. 一级结构也就是所谓的氨基酸序列。
  2. 二级结构是我们熟悉的α螺旋和β折叠等。
  3. 三级结构是蛋白质的三维空间结构。
  4. 四级结构是几个蛋白质分子的复合体结构。

PDB 蛋白质结构数据库 PDB

http://www.rcsb.org/pdb/home/home.do

是全世界唯一存储生物大分子 3D 结构的数据库。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通过实验方法获得的 3D 结构才会被收入其中。

示例

  1. 在PDB数据库,搜索“Su X D dUTPase”
    搜索结果:
    http://www.rcsb.org/pdb/explore/explore.do?structureId=3H6X
    http://www.rcsb.org/pdb/results/results.do?tabtoshow=Current&qrid=48C5EBE8

数据库检索号 PDB ID “3H6X”

结构信息存储在 PDB 格式的一个纯文本文件里,这种文件叫做 PDB文件。PDB 文件都是以 PDB ID 命名,以“.PDB”为后缀,可以用记事本打开。

PDB数据库,主要来源的实验方法是: X-RAY DIFFRACTION;少数是NMR核磁共振法。

一级蛋白质结构数据库:PDB 文件注释解读

第一部分:头信息
HEADER:蛋白质结构的基本信息描述,包括分子类别,存储日期,PDB ID
TITLE:结构的标题
COMPND:对结构中各个分子的描述。从这里可以看出 3H6X 这个结构是由三条链形成
的三聚体结构。
SOURCE:结构中所包括的每一个分子的实验来源。
KEYWDS:用于数据库搜索的关键词
EXPDTA:测定结构所采用的实验方法。PDB 中绝大部分结构都是通过 X 射线衍射法测
定的,少数是核磁共振法,极少数是使用包括电子显微镜在内的其他方法测定的。
AUTHOR:作者信息
REVDAT:历史上曾经对该数据库记录进行过的修改。
JRNL:发表结构的文献信息。
REMARK:无法归入其他部分的注释。

第二部分:一级结构信息(也就是氨基酸序列)
DBREF:该蛋白质在蛋白质序列数据库里的检索号等信息。
SEQRES:氨基酸序列。
MODRES:对标准残基上的修饰,比如第 56 号位置的蛋氨酸被硒代蛋氨酸所取代。

第三部分:非标准残基信息
HET:非标准残基及位置。
HETNAM:非标准残基的化学名称。
FORMUL:非标准残基的化学式。

第四部分:二级结构信息
HELIX:位于螺旋结构上的氨基酸所在位置及所属链。
SHEET:位于折片结构上的氨基酸所在位置及所属链。
TURN:位于转角结构上的氨基酸所在位置及所属链。
Link:残基间的化学键。比如 106 号氨基酸上的 C 与 107 号氨基酸上的 N 之间的化学
键是肽键!键长 1.32 埃。除了肽键还可能有氢键,二硫键等等。

第五部分:实验参数信息
CRYST1:晶胞参数。
ORIGXn:直角-PDB 坐标。
SCALE*:直角部分结晶学坐标。

第六部分:3D 坐标信息
ATOM:PDB 文件中最重要的,也是篇幅最长的就是 3D 坐标部分。
CONECT:原子间化学键连接信息。
MASTER:版权拥有者信息。
END:结束符。
3D 坐标信息

PDB 文件 3D 展示-Jsmol
PDB 数据库就提供这样一个在线的可视化软件,叫 JSmol
(JSmol 基于 JAVA 开发,所以需要先安装 java 运行环境。可以使用360浏览器)

3D结构图:
http://www.rcsb.org/pdb/explore/jmol.do?structureId=3H6X&bionumber=1

通过Style、Color可以更改图片风格

3D结构

改变类型:


Space Fill

改变颜色:


Subunit

二级蛋白质结构数据库:

结构域家族数据库 Pfam

http://pfam.xfam.org/
是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族。

蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。

示例
在搜索窗口:http://pfam.xfam.org/search,输入蛋白质fasta序列,查到结构域。

输入:Toll 样受体蛋白, pfam.fasta 文件,查找TIR 结构域

Summary 里可以获得这个结构域的功能注释以及结构信息。
Domain Organization 里可以看到目前有多少蛋白质拥有 TIR 结构域,以及 TIR 结构域和其他结构域之间的组合搭配关系。
Structure 会列出目前所有包含 TIR 结构域的蛋白质结构,以及他们在序列数据库。
UniProt 和结构数据库 PDB 中的链接。同时,也提供 JSmol 在线结构查看工具。

结构分类数据库 CATH/Gene3D

http://www.cathdb.info/

根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结构分类数据库。

CATH这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。

所有蛋白质结构域在 CATH 中被首先分成 4 种 CLASS

image.png

示例
进入CATH数据库,对PDB数据库分类的更新情况。

PDB蛋白结构域分类情况

搜索“3H6X”,得到分类代码“2.70.40.10”

详情页:http://www.cathdb.info/version/latest/superfamily/2.70.40.10

CATH 还从 2.70.40.10 这个结构分类里挑出了 19 个有代表性的结构域,并且
把他们的 3D 结构叠加在了一起(图 3)。从这个图上,我们可以看到这个结构分类的总体特
征以及差异产生的位置。

二级结构

彩色二级结构

CATH 把所有拥有 2.70.40.10结构分类的结构域,根据他们的序列相似度不同,进行了聚类

CATH Domains

二级蛋白质结构数据库:结构分类数据库 SCOP2

http://scop2.mrc-lmb.cam.ac.uk

SCOP 数据库与 CATH 类似,也属于蛋白质结构分类数据库,但 SCOP 的分类原则更
多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。

image.png

示例

  1. 在SCOP数据库,搜索“2BOP”

专项数据库

京都KEGG,全称京都基因与基因组百科全书

http://www.genome.jp/kegg

示例

  1. 进入KEGG数据库http://www.genome.jp/kegg/

子数据库

 Data-oriented entry points 
KEGG PATHWAY   KEGG pathway maps 代谢通路(最常用)
KEGG BRITE   BRITE hierarchies and tables
KEGG MODULE   KEGG modules  
KEGG ORTHOLOGY   KO functional orthologs   [Annotation]  KO功能通路
KEGG GENOME   Genomes   [Virus | Plant]  基因组  
KEGG GENES    Genes and proteins   [SeqData] 基因和蛋白
KEGG COMPOUND    Small molecules  小分子
KEGG GLYCAN    Glycans
KEGG REACTION    Biochemical reactions   [RModule]
KEGG ENZYME    Enzyme nomenclature
KEGG NETWORK    Disease-related network elements New! 疾病相关网络
KEGG DISEASE    Human diseases   [Cancer | Pathogen] 人类疾病
KEGG DRUG    Drugs   [New drug approvals] 药物

KEGG PATHWAY
又分为7个部分:
1)Metabolism,
2)Genetic Information Processing,
3)Environmental Information Processing,
4)Cellular Processes,
5)Organismal Systems,
6)Human Diseases,
7)Drug Development。

其中 Metabolism 代谢通路这部分,又具体分为几个专题:
1)Global/overview,2)Carbohydrate,3)Energy,4)Lipid,5)Nucleotide,6)Amino acid,7)Other amino,8)Glycan,9)Cofactor/vitamin,10)Terpenoid/PK,11)Other secondary metabolite,12)Xenobiotics,13)Chemical structure。

从1)Global/overview,进入Metabolic pathways
网络通路图
http://www.genome.jp/kegg-bin/show_pathway?map01100

image.png

调整图片为100%,点击圆圈,进入三羧酸循环详细通路图
http://www.genome.jp/kegg-bin/show_pathway?map00630

image.png

点击其中一个酶,进入KO数据库,表示蛋白质或酶的分类体系。
KO号代表蛋白质(酶)的一个分类体系,序列高度相似,并且在同一个通路上有相同功能的蛋白质被归为一组,然后打上KO标签
http://www.genome.jp/dbget-bin/www_bget?C00036

查看Toll-like受体传导通路

Pathway Maps》Organismal Systems 》04620Toll-like receptor signaling pathway

http://www.genome.jp/kegg-bin/show_pathway?map=hsa04620&show_description=show

image.png

点击,TLR4受体
http://www.genome.jp/dbget-bin/www_bget?hsa:7099

查看引发疾病
Disease H00821 Age-related macular degeneration 黄斑变性

查看相关药物
Drug target Eritoran (DG01426): D04043 D09573

点击 D09573
http://www.genome.jp/dbget-bin/www_bget?dr:D09573

image.png

人类孟德尔遗传在线 OMIM

http://www.omim.org/ 或者NCBI子数据库 http://www.ncbi.nlm.nih.gov/omim

它是一个将遗传病分类并链接到相关人类基因组中的数据库。OMIM为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。

示例

  1. 搜索阿尔茨海默症,“alzheimer disease”,
    进入详情页
    http://www.omim.org/entry/104300?search=alzheimer%20disease&highlight=alzheimer%20disease
image.png

查看某一个染色体位置
http://www.omim.org/geneMap/6/127?start=-3&limit=10&highlight=127

image.png

查看某一个基因信息
http://www.omim.org/entry/613609

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容