测序技术

DNA序列:生命之钥

Posted by Wenlong Shen on August 22, 2017

NGS:Next Generation Sequencing。一般地,习惯把454、Solexa、SOLiD为主的测序称为二代,基于单分子或者半导体芯片的称为三代。

1953年4月,Watson和Crick关于DNA双螺旋结构的文章发表于Nature,成为生物学研究的里程碑。此后,生命科学进入了DNA解密的时代。道德经所言“道生一,一生二,二生三,三生万物”,这“三生万物”需要的竟然仅仅是四种碱基的排列组合。生命的秘密藏在DNA序列中,首要任务,便是测出这序列内容。1970年,吴瑞先生建立了位置特异性引物延伸的测序方法,开了DNA测序技术的先河。随后在1975年,Sanger建立了自己的测序方法。1977年Gilbert等人建立了化学降解法,同年,Sanger改进了之前的方法,确立了日后第一代测序的主流方法:Sanger测序法。

Sanger测序加快了对于微生物和单个基因研究的脚步,然而面对真核生物复杂而庞大的基因组,早期测序方法低通量、高成本、强劳动的弊端是开展组学研究的主要障碍。新一代测序技术呼之欲出,2003完成的人类基因组计划更是为大规模组学数据时代的开启敲响了钟声。

2005年,传奇的Rothberg在Nature发表文章,介绍了一种边合成边测序(Sequencing by Synthesis)的技术,不久,454公司即推出了基于焦磷酸测序法的Genome Sequencer 20系统,一举轰动业界。其首先利用Emulsion PCR对DNA进行扩增,接着在每次测序反应中加入一种dNTP进行合成,若序列配对,则在合成后释放焦磷酸基团,后续反应产生荧光,通过光信号处理得到测序结果。优势在于每个测序反应在独立的小孔中进行,彼此间干扰较小,可以得到相对较长的测序读长,缺点在于无法准确测量类似polyA的重复序列,容易引入插入或缺失错误。

454一家独大的局面并没有维持很久,Solexa公司于2006年推出了1G Genetic Analyzer,并很快被Illumina收购,Solexa及后续的各种Seq(HiSeq、MiSeq、NextSeq)均采用Sequencing by Synthesis的技术,首先通过桥式PCR对DNA进行扩增,接着,每次添加一种带有荧光标记的dNTP进行序列配对合成,洗脱后再加入缓冲液激发荧光信号,最后转化得到序列信息。与454不同的是,dNTP的3’-OH被化学方法所保护,每次只能添加一个dNTP,因而能够很好地解决重复序列的问题,目前Illumina测序错误的主要来源是替换(substitution)。

ABI作为一代测序时期的领头羊,自然而然地加入了二代测序市场的竞争,并在2007年推出了SOLiD系统。其基于Sequencing by Ligation的方法,没有利用DNA聚合酶,而是通过DNA连接酶在连接过程中测序,并且使用了独特的两碱基测序法,每个碱基读两遍,能够更好地区分测序错误和SNP,提高了准确性。

就当时而言,SOLiD通量高、准确率高,领先于其它平台,但是商场如战场,由于Illumina率先占领了市场,再加上随后推出的高通量HiSeq系列,使得其它两家公司始终无力追赶。454更是在2016年被Roche宣布退市,Life(ThermoFisher)则收购了Ion Torrent另辟蹊径。不过,三足鼎立带来的良好竞争局面,使得技术的革新速度远超想象,十几年间,测序读长不断增加,测序价格不断降低,完整测序人类基因组已低至1000美金,NGS已然成为基础研究和临床诊断的重要工具。不可避免的,技术的进步并不完美,通量虽然提高,但相对错误率依然很高,测序读长相对Sanger测序依然很短。这就要求对测序文库的严格质控,对测序结果的仔细筛选,特别是对于SNP位点及拷贝数变异的筛查需要严格的计算和统计学分析。

新的技术、新的思路带来了第三代测序,单分子便是亮点之一。二代测序中PCR会导致不可预知的序列偏性,对单分子测序则避免了这一过程。

PacBio公司的SMRT(Single Molecule Real Time)同样使用Sequencing by Synthesis,但其有两个关键点,一个是ZMW(Zero-Mode Waveguides)保证了信号检测范围局限在每一个发生反应的纳米小孔内,另一个是特殊的DNA聚合酶反应体系,能够最大限度地保证测序读长。另外,通过检测相邻两个碱基之间的测序时间差,还能够帮助判断其碱基修饰情况。不过单分子测序会带来大量的随机测序错误,PacBio通过形成环形分子,多次测序来尽可能地纠正这个问题。

Oxford Nanopore公司则使用了一种全新的方法,即利用一种特殊的纳米孔,当DNA分子通过纳米孔时,不同的碱基引起不同的电荷变化,通过检测这些电信号而鉴定出相应的碱基序列。目前该技术的测序读长最长,随机测序错误则有望通过软件算法来纠正,同时,简易的样本制备、小巧的机器设备也是该公司技术的优势。

另外,Rothberg在454之后又发明了一种新的测序技术Ion Torrent,其样本制备基本翻版454(同样需要PCR),但是测序过程不是通过检测焦磷酸荧光显色,而是通过半导体芯片检测H+信号的变化来获得序列信息。较之其它技术,该方法成本较低,速度较快,通量较小,适合小型基因组或者外显子测序等。

科学引领技术创新,技术推动科学发展。测序技术打开了生命密码之书,然而我们不能为了测序而测序,面对海量信息,如何解析才是关键。生命科学之路,漫漫而修远,唯有上下求索才谓不枉此生。