Single Nucleotide Polymorphisms

单核苷酸多态性

Posted by Wenlong Shen on March 5, 2017

一样又不一样,不一样的也不一样,人与人之间因微妙的DNA差异而变得不同…

变异

DNA是生命的设计书,几乎所有表型的基础都隐藏在DNA中。也许有人会提出表观遗传等观点,但我还是认为甲基化、组蛋白修饰等等都是依据local DNA的特性特点而决定的,或者具有一定的相关性。人与人之间存在的诸如身材、智力、健康等大量表型差异,在DNA层面就是SNP(single nucleotide polymorphisms)、CNV(copy number variation)、SV(structural variation)等等变异形式。CNV和SV一般体现在肿瘤细胞或不同组织类型的细胞中,我这里主要讲人群差异,以SNP为主。

一般地,我们把出现概率大于1%的单碱基差异归为SNP,并认为其是可遗传的、导致人群差异性的主要因素之一(这里暂不讨论不同人种之间基因组层面的大片段差异,如炎黄一号及华夏一号均发现的亚洲人特异的基因组大片段)。SNP在基因组中大量出现,平均每一千个碱基对中就有一个SNP位点,如何识别出真正引起差异、与表型相关的SNP位点是生物学家最关心的问题之一。然而如此庞大的SNP数量对于检测、分型、统计学检验等等都是挑战。

关联分析

对于SNP的研究,应运而生的就是全基因组关联分析GWAS(genome-wide association study),其重中之重是大量样本检测和统计学工作。早期的技术无法一次性检测出基因组上的所有SNP位点或基因型(即便今天有高通量测序,其相对高昂的成本也增加了实施大规模人群研究的难度),这就可能导致有一些重要的SNP位点未被检测出。

为从数学上应对这一问题,研究者考虑到基因组的特点:连锁不平衡。给出一对SNP位点\(s_1\)和\(s_2\),其连锁不平衡系数为\(D=P_{12}-P_1P_2\),两者之间的相关性则可用\(r=\frac{D}{\sqrt{P_1(1-P_1)P_2(1-P_2)}}\)来表示。至此,我们可以通过选取一些tagSNP,来“代表”与其高度连锁的其它SNP位点。在这里通常使用\(r^2\gt0.8\)作为阈值。同时还应注意到,对于某些SNP位点,同时使用数个tagSNP来预测其基因型的效果远好于单独使用一个,为此,研究者亦使用单倍体型(haplotype)来代表这类SNP位点。

技术在发展

技术手段、方法总是在不断发展,研究者已不再担心SNP检测的缺失,GWAS研究也已经不再局限于选取tagSNP。然而面对早期研究中大量不同技术平台产生的不完整数据,如何整合也成为研究者关注的重点。估值法(imputation methods)就是具有代表性的一类方法(软件如IMPUTE、MACH等),能够帮助研究者整合分析多个数据集,更好地识别重要的SNP位点。

我相信,随着测序成本的逐渐下降以及计算性能的持续提升,GWAS将变成全民研究,因为人类最关心的始终是自己,我们总是会希望知道自己到底有什么与众不同之处。