《生物信息学课程导引》阅读笔记

原书名为:《生物信息学课程导引-生物信息学研究生暑期学校讲义》,是一本张学工写的英文版的生物信息学的入门书籍,涵盖了众多生物信息学的入门知识。

Chapter 1 Basics for Bioinformatics

容易和生物信息学混淆的一些学科名词,如下:

  • Computational Molecular Biology (计算分子生物学):更关注计算生物学中的分子层面.
  • Computational Biology (计算生物学): covers all efforts of scientific investigations on or related with biology that involve mathematics and computation.
  • Bioinformatics (生物信息学): 研究生物学数据(核酸和氨基酸数据),的存储,操作和解释,研究控制和影响不同类型生物结构,功能及进化的分子规则。

研究生物信息的人通常会做如下研究:

  • 开发新的计算工具(软件或者硬件),来更好的处理和分析生物学数据。
  • 开发新的模型和算法,来解决已有的研究问题。
  • 开发新的方法来分析新的实验技术带来的数据。
  • 通过信息和系统的视角来研究生物虚的。

1.2 Some Basic Biology

1.2.1 Scale and Time

  • 生物学研究的对象通常尺寸都很小,如细胞,病毒等等往往在微米和纳米量级,因此产生了很多研究的实验手段和数据来对他们进行分析。

  • 生命的产生历史很长,将地球历史比作30天的话,生命产生在第3天就开始了。而植物和动物在第27天产生,哺乳动物在28天产生,人类在最后一天的最后10分钟产生,人类记录的历史仅仅是最后的30s中时间,因此生物进化上的时间尺度是很大的。通过长久的演化,才有了今天的生物多样性。

1.2.2 Cells

  • 讲了原核细胞(prokaryotic cell)和真核细胞(eukaryotic cell)的区别和物种构成。
  • 染色体和染色质的概念

1.2.3 DNA and Chromosome

  • 讲了DNA的构成,核酸,五碳糖,含氮碱基(ATCG).
  • RNA的构成。
  • DNA5'端和3'端的概念
  • 碱基互补配对原则
  • 核小体,组蛋白的结构。

1.2.4 The Central Dogma

  • 讲了中心法则,生命信息从:DNA-> RNA -> 蛋白质,的流动过程。
  • 翻译的大概规则,按照密码子的映射表,从RNA->多肽链。
  • 密码子与氨基酸的多对一的对应关系。
  • 起始密码子AUG,终止密码子(CAA,CAG,UGA)。
  • 转录的分子过程,转录后的剪接加工过程。
  • 真核和原核生物转录过程的区别。
  • mRNA的量与基因表达量的关系。

1.2.5 Genes and the Genome

  • "基因"中文名的来历。
  • 转录的产物RNA不一定都编码蛋白质,非编码RNA(microRNA等)。
  • DNA片段长度的单位。
  • TSS(转录起始位点)
  • 顺式调控元件(cis-element),可以结合转录因子(TF, Transcription Factor)的地方,通常在TSS上游。
  • 反式调控元件(trans-element),通常指与顺式调控元件结合的东西,通常指转录因子(TF)。
  • 启动子,定义较模糊,通常分三种意义:
    1. 核心启动子: 在TSS 附近,大约100bp长,与RNA II型聚合酶结合的部位。
    2. 接近的启动子(proximal promoter):几百bp长,包括某些特定调控因子的结合位点,在核心启动子的上游较近的地方。
      3.远端启动子(distal promoter):在TSS上游几千bp的位置,提供额外的调控信息。
  • 外显子,内含子的概念
  • 选择性剪切的概念
  • UTR的含义(UnTranslated Region),分5'-UTR和3'-UTR。
  • CDS: Coding DNA Sequences,编码翻译蛋白质的DNA外显子部分的序列。
  • isoform:同一个基因的不同选择性剪切翻译出不同蛋白质的不同DNA的序列。
  • 基因组的概念:原来是只指CDS的基因,现在因为发现高等生物只有很少一部分是CDS之后,基因组的概念变为某个生物体的全部DNA。
  • 人类基因的数量:20000-25000,总序列长度:3 billion bp,23对染色体。编号按照染色体长度从大到小排列的,除了21号比22稍短。
  • 蛋白质编码的序列之占1.5%-2%的基因组序列。平均基因长度3000 bp。
  • 部分植物的基因组的长度,以及基因的数量远高于人类,但这与生物体的复杂性没有太大的关联。

待解决问题1:目前绝大多数的no-coding RNA的功能尚不明确,但是某些对基因的表达和调控,剪接过程起着至关重要的作用。

1.2.6 Measurements Along the Central Dogma

  • 高通量的概念:obtain measurements of thousands of objects in one experiment in a short time.
  • 高通量数据的产生也是催生生物信息学的动机。

1.2.7 DNA Sequencing

  • 第一代Sanger测序的原理:利用ddNTP的3号位缺少一个OH基团,因此DNA在利用这种核苷酸进行DNA合成的时候会终止。因此合成后的DNA长度各不相同,只要长度足够,在电泳上跑的长度各不相同,并且四种不同碱基的ddNTP所带的荧光标记颜色不同,使用特定装置可以读取出来,根据跑电泳得到的谱线和颜色的分布,可以推出原始DNA序列。
  • Sanger测序最大能测的DNA片段长度仅为800bp,因此科学家发明鸟枪法(将目的DNA随机地处理成大小不同的片段,再将片段序列(之间有重叠)连接起来的测序方法。)
  • 第二代测序:454,Solexa和SOLiD。
    • (下面的数据都仅仅是10年前的,大约08年左右的技术水平,现在这些公司的测序长度和通量都较以前大幅提高了)
    • 454:采用焦磷酸测序法,测序长度达到200-400,每次能产生100Mb的序列。适合de novo测序(从头测序)。
    • Solexa和SOLiD:产生的read仅有36nt,每次run能产生1-2Gb的数据量。适合重测序,或者转录组分析,SNP分析,CHIP-seq分析等等。

1.2.8 Transcriptomics and DNA Microarrays

  • 通常细胞内如果对某种蛋白的需求量较大,会转录出更多份的RNA,因此RNA的数量某种程度上可以反映基因表达的水平。

  • 管家基因:对于所有组织和细胞,表达量都基本相同的基因,通常为生命过程必备的重要基因,如呼吸相关基因等等。

  • 高通量的转录组测序技术:微芯片或者微阵列。两种都是制成一种在芯片上点了许多DNA片段的小孔组成,某些DNA片段与待测的RN反转录出的cDNA片段互补,如果cDNA被荧光标记,则两者结合时会产生荧光,可以被装置捕捉,电脑分析后可以得到对应的序列。

  • 通常分两种微芯片:

    1. cDNA微芯片,通过两种对比的样本来得出表达量的比值,灵活性较高,因为可以自己设定具体芯片上要放哪些DNA片段。
    2. 寡核苷酸微芯片:通常一个基因对应一个探针,每个探针对应在芯片上同一区域的DNA片段(25nt)集合。目前已经可以做到整个人类基因组的基因集成在一个芯片上。
  • 典型的基于微阵列的研究是比较并获得在两种不同样本中差异表达的基因。

  • 现在对于某些非编码RNA也有了响应的芯片,如micro RNA (miRNA) 芯片。

  • 随着芯片上可以点的DNA的密度增加,一种叫tiling array的芯片产生了,它包含了所有基因组中的转录本(蛋白质编码的RNA,以及非编码的RNA)。

  • RNA-seq:使用二代测序的方式测定RNA反转录出cDNA的序列。

待解决问题,不知道现在解决了没有:tiling array由于密度太高,噪声也非常大,因此数据分析可能会带来很多误差,对生物信息学提出了一个新问题。

1.2.9 Proteomics and Mass Spectrometry

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,511评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,495评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,595评论 0 225
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,558评论 0 190
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,715评论 3 270
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,672评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,112评论 2 291
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,837评论 0 181
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,417评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,928评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,316评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,773评论 2 234
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,253评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,827评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,440评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,523评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,583评论 2 249

推荐阅读更多精彩内容