DNA拷贝数变异CNV检测——基础概念篇

时间：2018-01-24 19:46:06 收藏：0 阅读：15042

一、CNV 简介

拷贝数异常(copy number variations, CNVs)是属于基因组结构变异（structural variation），根据大小可分为两个层次：显微水平（microscopic）和亚显微水平(submicroscopic)。显微水平的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变异。亚微水平的基因组结构变异是指 DNA 片段长度在 1Kb-3Mb 的基因组结构变异, 包括缺失、插入、重复、重排、倒位、DNA 拷贝数目变化等，这些统称为 CNV （也称为拷贝数多态性(copy number polymorphisms, CNPs）。

CNVs最初是在病人的基因组中发现, 但后来的研究表明在正常人体中也普遍存, 说明CNV 是一组具有良性、致病性或未知临床意义的基因组结构改变。有统计显示, 目前共发现CNVs约57 829个(这个数据不准确，肯定在更新，图1, 已发现的CNVs与染色体位置关系, http://projects.tcag.ca/variation/), 其中染色体倒位847; 100 bp~1 Kb的插入缺失为30 748个; 倒置断裂位点约14 478个。此外, 据Hurles[1] 研究估计, CNVs至少占到基因组的12%, 已成为基因组多态性的又一重要来源。

技术分享图片

有关CNVs的研究将随机个体之间的基因组差异估计值提高到大于1%, 大大改变了人们先前的认识, 有学者甚至认为这一发现将改变人类对遗传学领域的认知[3,9]。与一直以来研究较多的单核苷酸多态性(SNPs)相比, CNVs发生的频率虽然较低, 但累及的序列长度却明显超过了前者, 因此对人类健康和疾病的影响更为显著。

染色体非等位同源重排、非同源突变和非βDNA 结构是造成基因组拷贝数变异的重要原因。目前研究表明 CNV 偏向分布于基因超保守区域外的位置, 多达 40%的 CNV 位于基因沙漠区(gene deserts)。存在 CNV 的基因经常参与人体对外界环境的反应的生理过程,进而在细胞连接、感观理解、化学刺激、神经生理等过程中发挥重要作用。不存在 CNV 的基因往往是剂量敏感性基因, 参与维持细胞的生长发育, 包括细胞信号传导、增殖、激酶化和磷酸化等过程；同时 CNV 可导致不同程度的基因表达差异, 对正常表型的构成及疾病的发生发展具有一定作用。

二、CNV 历史

基因拷贝数CNV研究历史自 1998 年 Lupski 给出了基因病的定义之后[2] ，目前已经发现大量的基因病是由基因组结构改变引起的，而非传统的 Watson-Crick 碱基配对变化所引起，其中一些基因病是由重组区域的基因拷贝数发生改变所致。 2000 年 6 月 26 日参加人类基因组计划 ( human genome project , HGP) 6 个国家 (包括中国) 的科学家公布完成了人类基因组草图.随后人类基因组序列绘制成功，首次在分子层面,上为人类提供了一份生命“说明书”：HGP 从分子层面上为多种遗传疾病、癌症及神经退化症的治疗提供了基础。

高通量阵列比较基因组杂交技术（array based comparative genomic hybridization CGH）加速了 CNV 的探究。2004 年 Iafrate 等人通过细菌人工染色体微阵列（bacterial artificial chromosome ,BAC-based array）对 39 个非相关的健康人研究后发现 255 个变异位点，其中有 24 个位点出现的频率大于 10%，有 6 个位点出现的频率大于 20%，其平均间隔为 1Mb[3] 。同年 Sebat 及同事通过代表性单核苷酸微阵列分析 ( representational oligonucleotide microarray analysis ,ROMA) 对 20 个健康人研究发现了 221 个 CNV，代表着 76 种 CNP，CNP 间隔平均长为 465kb[4] 。此外发现 CNP 间隔内 70 个不同基因的 CNV，包括调节神经功能、细胞生长、新陈代谢的基因，以及几种已知疾病的相关基因。由此可以看出在正常人群中也存在一定数目的 CNV。

伴随着研究者对 CNV 的研究越来越深入，Redon 等人通过对 270 名具有欧洲、非洲或亚洲世系的 4 个群体研究，构建了人类基因组第一代拷贝数变异图谱[5] 。该研究表明:拷贝数变异非常复杂，类型多样。通过两种平台：WGTP platform、500K EA platform，及两种互补技术：单核苷酸多态性(SNP) 基因型微阵列和基于克隆比较基因组杂交技术对这些个体 DNA 进行鉴定，结果显示有 1447 种拷贝数变异区(copy number variation regions, CNVR)，涵盖了 360 万个碱基(占人类基因组 12 %), 其中 285 种与孟德尔遗传疾病相关；并且指出 CNV 通常不编码发育相关的重要基因，而是编码与环境作用相关的基因，即“环境敏感性基因”，而这些基因通常参与细胞粘附、化学刺激、感官知觉，神经生理过程等活动。

2009 年 AnnaC 等通过分析全基因组单核甘酸变异(Single Nucleotide Polymorphisms ，SNP)和 CNV 遗传标记与精神分裂症患者的相关性，提出不常见的致病性 CNV 区域对于精神分裂症易感性方面发挥更重要的作用，而不支持共同变异(common variation)区域与精神分裂症的相关性[6] 。

2010 年 Christiaan 等通过对 95 个血液肿瘤细胞系的高通量分析发现了一些共同发生的基因拷贝数变化位点，并对这些位点进行功能分析，绘制出基因拷贝数变化（获得或缺失）网络，从而发现了一些中心节点，进而提出：大规模低强度的拷贝数变化可能是肿瘤发生发展过程的重要特征[7] 。

目前已有几个数据库用来收集 CNVs 信息[8] ：健康人群 CNV 可到 Genomic Variants （www.projects.tcag.ca/variation）查询；神经发育异常的患者 CNVs 可到 DECIPHER（www.sanger. ac.uk/PostGenomic/decipher/）查询；染色体异常的患者 CNVs 数据库 www.ukcad.org.uk/cocoon/ukcad、www.isca.genetics.emory.edu/；染色体非平衡变异的患者 CNVs 可到 www.ecaruca. net 查询。

三、CNV 形成机制

基因的结构特征决定基因是否容易发生重组，进而影响基因拷贝数变化。重组主要发生在特定的重复序列区域，或者低拷贝重复区（low copy repeats , LCRs）。LCR 中包含一个或多个基因、假基因、基因片段、逆转录病毒序列、基因调控区，通常分布在端着丝粒和端粒区域，其大小、相对方向、各拷贝之间的距离及同源程度，均将影响到 CNV 的形成[2] 。然而目前 CNV 的确切机制仍不甚清楚，可能的机制主要包括非等位基因同源性重组机制 (non-allelic homologous recombination, NAHR), 非同源末端连接机制(non-homologous end joining, NHEJ )NAHR 机制一般发生在经常重组的区域，这些区域有如下特征：（1）片段大小 >10kb，（2）序列同源程度 >97% , (3)序列方向明确，（4）每个 LCR 大小控制在 5Mb 以内，（5）LCR 在同一染色体上[9]；而 NHEJ 不需要重组断端之间的具有严格的 DNA 同源性，但是仍能够引发彼此毫不相干的 DNA 断端的连接，导致包括移位（移位) 等在内的染色体之间的重排。不经常发生重组的 LCR，或者各 LCR 区域大小不一致时，倾向于通过 NHEJ 机制引起基因拷贝数变化。尽管如此，很多遗传学家并不认可 NHEJ 机制。