2 Biostar lesson 2 基础生物知识和计算机设置

基础生物学知识

这部分的内容基本就是介绍了分子生物学的基本知识点,DNA,RNA以及蛋白这些个传统的中心法则上面的三个大面。然后介绍了基因组以及基因组是如何行使功能的:

对我来说比较有意思的几个数据:

1 世界上最大的基因组不是人的,是日本的一个奇怪的花花,有120G

2 人的基因组3G

3 果蝇才120M

4 酵母的12M

C值悖论

开始的时候大家都觉得基因组的大小应该和基因数量成正比,后来发现不是这样呀。再后来大家发现其实基因组里面其实大部分都是非编码区,但是确实是在行使功能,所以解释了为啥基因组特大,但是编码基因没那么多。其实就是因为行使功能的可能是非编码区。


可变剪切

可变剪切的信号点为 GT  再在下游找到AG 就是一个可变剪切的组合位点,两者间为intron,被剪掉


开放式阅读框架

起始编码子: ATT,ATG,AGT

终止编码子 GAT

开放式阅读框架至少100aa,也就是300bp


启动子:

大约6成的基因的启动子位于CpG岛内


同源性:

同源性不是相似性,同源性通常相似,但是相似不一定同源

orthologs 两个物种来源于同一祖先序列

paralogs 同一个基因组里面两段相似的序列


数据分析的思路

数据分析,尤其是开始的阶段,不要过多考虑细节,要把流程和草稿先打出来,这样就不至于迷失在细节之中。打草稿才可以看到整个的数据流是怎样一步步推进的,只有把整体的流程都构建出来,才可以真正的理解自己分析过程的优势和缺陷所在。

怎样整体构建

先拿一小部分的数据进行测试,千万不要开始就上G的数据一起玩。拿小数据集的优势就在于你可以几分钟内就意识到每个分析的步骤里面到底发生了什么,出现了什么问题,结果应该是啥样。

不要很早期的时候就去优化自己的分析步骤。要把自己的分析流程构建的灵活,这样里面的每个分析模块都可以后期改动。只有一路挺进到最后的分析部分你才会意识到自己的分析流程中最大的问题是什么。

1 验证性分析的时候下载1million的reads就ok

2 只使用部分的基因组,或者只用其中的一条染色体

3 使用你非常了解的小数据集进行验证,只有对数据集内的数据非常了解,才可以知道分析出来的结果是不是靠谱。

生信分析的大原则

1 好使

2 快

3 简单

为啥要快

因为六点下班!!其实主要是不要等上三天才出结果,这样就可以保证你的分析思路不会被打断,这特别重要,因为思路远比细节重要,思路的重组是代价很高的事情。

可重复性

不必过分追求,但是要保证自己的code简介,直接易于理解。不要受自己实验室总是使用的pipeline的限制,要知道做同一件事情总是可以使用不同的工具,知道自己还可以使用哪些工具可以更加直接简单的完成分析,google一下就ok。

funding的机构通常是胡萝卜加大棒,通常大棒好使,胡萝卜没人理。


计算机分析部分

计算机不用太好,笔记本就可以完成很大一部分的分析,不要被那些装逼的人吓倒,虽然他们用cluster,但是也不是说整个的cluster都是他们的,除了内存和cpu大一点,没啥值得骄傲的。--总结自微信

这个书里面提供的bashrc和bashprofile的设置很好,我决定把自己所有的系统都用这套

怎样在ubuntu上安装conda

```

curl -O https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh

bash Miniconda3-latest-Linux-x86_64.sh

```

bioconda 的优先级设置

```

conda config --add channels r

conda config --add channels conda-forge

conda config --add channels bioconda

```

conda 自身升级,要先关闭当前环境,在root里面升级

```

source deactivate

conda update conda

```

设置环境

```

conda create -y --name bioinfo python=3

```

这样就创建了python3的环境

使用环境

```

source activate bioinfo

```

查看当前conda所有的环境

```

conda info --envs

```

安装当前环境下常用工具

```

# Remember to run this once per window.

source activate bioinfo

# Install most software tools used in this book.

curl http://data.biostarhandbook.com/install/conda.txt | xargs conda install -y

```

升级当前环境下所有工具

```

curl http://data.biostarhandbook.com/install/conda.txt | xargs conda upgrade

```

解决efetch的问题

```

mkdir -p ~/src

curl ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip > ~/src/edirect.zip

unzip -o ~/src/edirect.zip -d ~/src

echo 'export PATH=~/src/edirect:$PATH' >>  ~/.bashrc

source ~/.bashrc

```

安装一个r

sudo apt-get install r-base-core


目前已经设置好ubuntu


MacOS

mac 上先appstore里面安装 xcode

再命令行里面

```

xcode-select --install

```

需要管理员权限,可以命令行里面打,要用brew也得先agree

```

sudo xcodebuild -license accept

```

用brew装软件

```

brew install [name of the software]

```

brew的科学环境

```

# This is used to "tap" formulas used in science

# Needs to be done only once.

brew tap homebrew/science

```

安装x11 的库

```

brew cask install xquartz

```

安装其他软件

```

brew install gd libharu git imagemagick lzo hdf5 bison wget

brew install findutils --with-default-names

```

安装java,注意安装jdk,也就是开发版本,不要安jre

```

brew cask install java

```

用brew升级软件

```

brew upgrade gd libharu git imagemagick lzo hdf5 bison wget findutils

```


设置自己的terminal,这个看着爽很重要

```

curl http://data.biostarhandbook.com/install/bash_profile.txt >> ~/.bash_profile

curl http://data.biostarhandbook.com/install/bashrc.txt >> ~/.bashrc

```

这个来一次就够了

然后激活

```

source ~/.bash_profile

```

感觉太棒了


推荐阅读更多精彩内容