转录组入门(2):读文章拿到测序数据

前言

本课程来源于生信技能树

本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面!

文献解析

mRNA-Seq

测序类型:PE 51bp

比对工具:TopHat (v2.0.13) 参考基因组:hg19

read统计:HTSeq (v0.6.0) 差异基因分析:DESeq (v3.0)

差异外显子:DEXSeq (v3.1)

others:BEDTools (v2.17.0)、bedGraphToBigWig tool (v4)

RIP-Seq

Peak calling: MACS (v1.4.2 20120305) Motif finding: HOMER (v3.12, 6-8-2012)

others:bedGraphToBigWig、ngs.plot (v2.47)

通过查询GEO数据库,GSE81916包括人和小鼠的数据,本次只下载小鼠数据作为练习。

1503562853280.png

数据下载

通过ftp链接,找到最后4个小鼠的数据,用校园网直接通过浏览器下载。也可以wget循环下载

for((i=59; i<63; i++)); do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747SRR35899$i/SRR35899$i.sra; done

PS: 推荐使用Aspera下载:

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zvxf aspera-connect-3.7.4.147727-linux-64.tar.gz
./aspera-connect-3.7.4.147727-linux-64.sh

echo 'PATH=$PATH:~/.aspera/connect/bin/' >> ~/.profile
source ~/.profile

for((i=59; i<63; i++)); do ascp -k 1 -T -l 800M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747SRR35899$i/SRR35899$i.sra . ; done

# EBI中arrayexpress的数据下载
ascp -QT -l 800M -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/ERR032/ERR032203/. .

推荐阅读更多精彩内容