拷贝数变异CNV的生物信息学分析(一)

欢迎同行一起交流讨论
微信 forensic_JS
QQ1956238898
(一)CNV介绍
由基因组发生重排而导致的,一般指长度1 kb 以上的基因组片段的拷贝数增加或者减少, 主要表现为亚显微水平的重复或者缺失。因此称为“微”缺失/重复变异。

拷贝数变异模式图二.png

https://www.jianshu.com/p/d5a0fadde763
https://www.jianshu.com/p/0b7a51389da6
(二)CNV测序技术
目前CNV测序主要分基因芯片、全基因组测序、全外显子测序三种,下面主要讲从基因芯片在CNV方面的应用。
一、基因芯片的分类
1、基因芯片按领域分类主要可以分为:
1、基因组研究的SNP和CNV芯片
2、mRNA表达研究的基因表达谱芯片
3、microRNA芯片和LncRNA芯片
4、DNA甲基化芯片
在SNP芯片领域,Illumina公司凭借GoldenGate技术和infinium技术占主要地位。Affymetrix尽管也有SNP芯片,但是仍无法和Illumina公司相比。
基因表达谱芯片领域,Affymetrix公司的芯片最为著名,Agilent和Illumina公司的芯片也很好。
2.Affymetrix公司的芯片技术
Affymetrix公司的基因表达谱芯片是最著名的。
它的表达芯片分为传统的In Vitro Transcription芯片(IVT)和新一代的Whole Transcription 芯片(WT)传统IVT芯片比较经典的是Human U133 , Mouse U430,Rat U230 以及PrimeView&Almac Xcel (价格经济)芯片
新一代WT芯片主要有Human/Rat/Mouse Gene 1.0 ST (基因),Human/Rat/Mouse Exon 1.0 ST(外显子),HTA 2.0

3.Affymetrix基因表达谱芯片技术的原理
https://wenku.baidu.com/view/ba39fb21773231126edb6f1aff00bed5b8f37370.html
这个连接讲的通俗易懂很明白了

4.对Affymetrix的这几种基因表达谱芯片进行比较
新一代WT芯片的优势:
它可以覆盖转录本上更多的区域,实验结果的代表性会更强
它可以针对因为可变剪切所形成的不同转录本,分别设计探针,这样就可以知道不同转录本的表达量的变化了WT芯片可以检测LncRNA
其中,Gene系列 比较基本,满足一般表达量检测需求;Exon系列 全面,精确表达量检测;HTA2 最佳,最全&最精确表达量;EG1.0 最佳,唯一能够获得转录本表达量

5.Affymetrix芯片数据的处理方法
我们通过芯片实验获取数据需要两个步骤:
第一步由扫描设备对芯片进行扫描,得到荧光信号图像文件(DAT文件)
第二步由系统自带的图形处理软件进行一系列图形处理与识别,从芯片图像中提取数据,得到CEL文件
几个概念
探针组(probe set):来自于同一个基因的探针对的集合。一个基因通常由11对或20对探针组成。
CEL文件:存储每个探针的信号值和定位信息的文件。
CDF文件:基因芯片探针排布的信息(哪个探针来自哪个探针组)
Probe文件:提供探针的序列信息
Affymetrix芯片原始数据最常用格式为CEL格式,这是我们处理芯片数据的出发点。因为Affymetrix公司的芯片分为传统的IVT芯片和新一代的WT芯片,所以针对这两种芯片平台产生的数据,我们需要用不同的R包来进行读取。旧版芯片用affy包读取CEL文件数据,新版芯片用oligo包读取CEL文件数据。
读取和数据预处理方式参考:http://www.bio-info-trainee.com/1586.htmlhttp://www.bio-info-trainee.com/1580.htmlhttps://www.jianshu.com/p/fb4217512ec0

二、Affymetrix SNP 6.0 芯片介绍
Affymetrix公司主要推出了500k、SNP 5.0、SNP 6.0芯片
Affymetrix Genome-Wide Human SNP Array 6.0是唯一可以真正将CNP(拷贝数多态性)转化成高分辨率的参考图谱的平台。主要应用领域包括全基因组SNP分型、全基因组CNV分型、全基因组关联分析、全基因组连锁分析。除了进行基因分型外,还为拷贝数研究和LOH研究提供帮助,从而能够进行:UPD检测、亲子鉴定、异常的亲代起源分析(针对UPD和缺失)、纯合性分析、血缘关系鉴定。链接:https://www.biomart.cn/specials/cnv2014/article/84169

三、拷贝数变异数据分析软件
分析软件的选择可以参考这篇文献《Software comparison for evaluating genomic copy number variation for Affymetrix 6.0 SNP array platform》这篇文献最后推荐使用PennCNV作为call CNV的最优软件。大致流程就是:
(1)Affymetrix Power Tools 处理CEL文件,包括质量均一化、信号汇总、基因型提取
(2)上一步生成的信号强度文件(信号文件和置信文件)使用PennCNV包分析
(3)上一步得到了LRR和BAF文件

CNV(copy number variant):是一种结构遗传变异,主要是由于重复,缺失,插入和不平衡易位事件。
CNV形成的几种机制:1、减数分裂重组 meiotic recombination;2、双链断裂的同源定向和非同源修复 homology-directed and nonhomologous repair of double-strand breaks;3、复制错误 errors in replication
CNP(Copy Number Polymorphisms):拷贝数多态性是在人群中超过1%存在的常见的CNV,而在不到1%的人群中发现的CNV被认为是罕见的。
估计CNV方法:
1、比较基因组杂交 Comparative genomic hybridization (CGH)
CGH基于不同荧光标记测试的竞争性原位杂交和与正常的人类中期染色体有关的参考DNA。沿染色体长测量的荧光强度比与实验和reference中相应DNA序列的拷贝数之比大约成比例。 低分辨率,只有5-10Mb
2、阵列CGH
Bacterial artificial chromosome (BAC) clone 细菌人工染色体克隆文库:是含有某种生物体全部基因的随机片段的重组DNA克隆群体,是进行全基因组测序、构建物理图谱、染色体筛查、基因筛选及基因图位克隆的基础。 phage artificial chromosome (PAC) clone 噬菌体人工染色体克隆
3、 高密度寡核苷酸微阵列 high-density oligonucleotide microarrays
通过单个DNA样本的杂交进行 信噪比 signal-to-noise ratio:使用限制性内切酶处理DNA样品成短片段,连接接头,使用通用的引物序列进行PCR扩增,经荧光标记后与芯片杂交。信号强度可确定基因型并估计拷贝数。

CNV的检测
使用高密度寡核苷酸微阵列方法检测CNV的一个主要在于能确定给出CNV的断点breakpoint。
基因组变异检测算法 --->R包
step1、稀疏贝叶斯学习模型( sparse Bayesian learning (SBL) model):确定给定CNV最有可能的候选断点
step2、反向消除(backward elimination (BE)):可连续删除最小显著的断点,允许修改错误发现率False Discovery Rate(FDR)
  PennCNV算法使用隐马尔可夫模型hidden Markov model (HMM),是基于使用每个探针的总信号强度和等位基因强度比、相邻SNP之间的距离、SNP的等位基因频率、可用的谱系信息的方法。

四、Affymetrix power tool工具和PennCNV的下载和安装
一、APT的下载和安装
首先需要下载好Affymetrix power tool工具和PennCNV这两个软件,APT的下载最好有二进制文件(源码需要编译安装,比较麻烦)。PennCNV在Github里面有详细的下载步骤和WG-LAB的网站也有详细的使用说明,可自行检索。
下载地址:http://www.affymetrix.com/support/developer/powertools/apt_archive.affx,此处下载的是源码文件,放在Linux服务器的 ~/zjs/software路径下。
下载的APT说明文档在:[https://www.affymetrix.com/support/developer/powertools/changelog/index.html#:~:text=The%20Analysis%20Power%20Tools%20%28APT%29%20is%20a%20collection,also%20refers%20to%20the%20underlying%20C%2B%2B%20source%20code]
从二进制文件进行安装
======================================
LINUX/OS X:
添加文件中bin到环境变量中
例:export PATH=apt-1.16.0/bin:$PATH
======================================
二、PennCNV的下载和安装 (以及遇到错误排查方案)
以下内容是在各种操作系统上安装PennCNV的说明。PennCNV是用Perl和C语言混合编写的;因此建议重新编译源代码(除非您使用的是Windows,为此我预先为不同版本的Perl打包了许多dll文件)。事实上,用户报告的许多问题都可以简单地通过重新编译源代码来解决!

========Linux system=======

If using Linux/Unix system, we can run the wget command to download the program files in a local directory:

wget https://github.com/WGLab/PennCNV/archive/v1.0.5.tar.gz

Then we uncompress the downloaded file by the tar command, which automatically generate the penncnv/ directory containing executables and library files:

tar xvfz v1.0.5.tar.gz

We will see the new directory, enter this directory, and we will see several Perl programs (file name in the *.pl format), as well as a kext/, lib/, docs/ and example/ subdirectory.

Next, 进入到 kext/这个路径, 可根据需要改变 Makefile, 文件
然后输入 make. 如果没有报错,就说明安装成功了!!!

If you see an error message such as "khmm_wrap.c: In functionSWIG_AsCharPtrAndSize: /opt/perl/lib/5.26.0/x86_64-linux-thread-multi/CORE/handy.h:111:34: error: bool undeclared (first use in this function)", then just do a sed -i -e '/#undef bool/d' khmm_wrap.c to remove this statement.
If you see an error message such as "/usr/bin/ld: /opt/perl/lib/5.26.0/x86_64-linux-thread-multi/CORE/libperl.a(op.o): relocation R_X86_64_32S against PL_opargs can not be used when making a shared object; recompile with -fPIC", the best solution is just to install a new Perl such as 5.14.2, as explained below in "compilation from source" section. My guess is that the libperl.a itself is not compiled with -fPIC so there is really just no other way except to install another perl yourself (you can either do it manually as I illustrated below, or use perlbrew).
Now try to run the detect_cnv.pl program:

[kai@adenine]$ ./detect_cnv.pl

It will show the program usage information, indicating the successful installation of the program. If an error message like bad interpreter: No such file or directory is shown, it indicates that Perl is installed in a different directory: try running perl ./detect_cnv.pl instead.
If other types of error message are issued (such as floating point exception), we need to compile the program, see the compilation section below.

附加说明:如果您在操作系统中安装PennCNV有问题,可能是由于在某些系统中与最新版本的Perl 5.14/5.18不兼容。要解决这个问题,可以使用perlbrew安装低版本的Perl,并在其上运行PennCNV,而无需重新编译。Perlbrew默认安装为非线程和非多perl版本。你可能想使用“perlbrew install perl-[insert version here]——thread——multi”。请参阅本页末尾的更多说明。

ADDITIONAL NOTES: If you have problem installing PennCNV in your operating system, it is perhaps due to incompatibility with the latest version of Perl 5.14/5.18 in some systems. To solve this issue, you can use perlbrew to install a lower version of Perl and run PennCNV on top of that without re-compilation. Perlbrew defaults the installation to non-threaded and non-multi perl versions. You may want to use "perlbrew install perl-[insert version here] --thread --multi". See more instructions at the end of this page.

国内外学者提供的文件和程序
研究者可以使用PennCNV软件中包含的 compile_pfb.pl perl脚本为他们的自定义的研究数组生成PFB文件。具体使用参考这个脚本
下面👇是国内外学者针对不同的测序平台、不同的芯片生成的自己的PFB文件,提供给大家参考:

  • The hc12v1.hg18.pfb.gz and hc12v1.hg18.gcmodel.gz file are provided for HumanCytoSNP12 V1 array with 300K markers on that array specifically (based on Caucasian populations).

  • The ho1v1.hg18.pfb.gz and ho1v1.hg18.gcmodel.gz files are provided for HumanOmni1 QuadV1 array specifically (based on Caucasian populations).

  • Updated 2011Apr25: A user (Denise Kay) submitted an updated ho1v1.hg18.pfb.gz file in which 32,290 markers have modified PFB=2; these are originally designed as SNP markers by Illumina but their quality is too low so it is best to treat them as intensity-only markers by flagging PFB=2.

  • Updated 2011Mar18: Dr. Luis M. Franco from Baylor College of Medicine provided PFB file for the Illumina OmniExpress array compiled from 96 unrelated Caucasian individuals. The number of SNPs in the files current form is 703,965 ( pseudoautosomal and Y-chromosome SNPs are excluded).

  • Updated 2011Aug16: Dr. Colm O'Dushlaine lifted over the PFB file for Illumina OmniExpress array to hg19 coordinate.

  • Updated 2013Nov06: Dr. Lijian Yu from Harvard University provided Affymetrix PFB files in hg19 coordinate, using version na33 annotations from Affymetrix. Fie updated on 2014Jul23 to fix white space problem in the file.

  • Updated 2014Sep13: Stephen Sanders from UCSF provided PFB file for Illumina Omni 5 array, generated from 600 controls from the Simon Simplex Collection.

  • Updated 2015Jun26: Stephen Atkinson from Imperial College London provided PFB file for Illumina HumanCoreExome_v12-A beadchip, and an HMM file for this chip constrcuted by Szatkiewicz et al.

下面👇是国内外学者提供给我们的他们自己开发的脚本,帮助我们更好的开展研究:

  • User contributed programs (Uploaded 2010Dec01): The penncnv_to_plink.pl program can be used to convert PennCNV output into PLINK input format. Run it with -h argument to read the documentation. The program is written and provided by Matthew Gillman at the Wellcome Trust Sanger Institute.

  • User contributed programs (Uploaded 2011Feb27): The plot_raw_PennCNV.R program can plot from PennCNV rawcnv file on screen or to a high solution png file. Example screen shot 1, 2, 3 and 4. This program is written band provided by Dr. Bowang Chen. See updated script below.

  • User contributed programs (Uploaded 2012Jul16): The plot_raw_PennCNV2PDF.R program can plot from PennCNV rawcnv file to a high solution PDF file. This new script exports all plots to a pdf file, by default 70 samples/page (can be changed by users). It is much fast now, it plots a 50000+ line raw file to a 400+ page pdf in ~2 minutes. Example output is here. Example command line is "R CMD BATCH --no-save --no-restore "--args filename="filename\" PDFname=\"PDFname"" $path_R/plot_raw_PennCNV2PDF.R ". This program is written band provided by Dr. Bowang Chen@German Cancer Research Center.

PennCNV示例数据集 (这里不列出,因为我本人的研究是Affymetrix gw 6.0 芯片,与实例不一样这里不进行展开)

PennCNV-Affy指导说明

这个包包含PennCNV-Affy指导说明和助手脚本,用于处理Affymetrix Mapping 500K,全基因组5.0和全基因组6.0数据作为原始CEL文件。有关如何使用PennCNV-Affy软件包的说明,请参阅页面左侧菜单栏中的PennCNV-Affy链接。下面的包是在2009年8月27日更新的,只修复了非常小的错误。它应该产生与以前版本相同的结果。
PennCNV-Affy软件包的下载地址为:gw6.tar.gz包 http://www.openbioinformatics.org/penncnv/download/gw6.tar.gz
如何使用PennCNV-Affy软件包的说明,请参阅页面左侧菜单栏中的PennCNV-Affy链接:http://penncnv.openbioinformatics.org/en/latest/user-guide/affy/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容