宏基因组分析方法初探

From sampling to analysis

Posted by Wenlong Shen on February 25, 2020

探究微生物组,解构身边熟悉的陌生环境

随着测序通量越来越高,价格成本越来越低,痕量微生物也难逃深度测序的挖掘。在高通量测序技术的辅助下,宏基因组学研究飞速发展,十多年来,在环境微生物鉴定、共生菌研究、营养学研究、肠道微生物对人体生理影响等方面取得了诸多进展。

一个标准的分析流程通常包括以下五个部分:1、样本的收集、处理及测序;2、对测序数据的预处理;3、对微生物组进行分类学、功能组及其它基因组学分析;4、统计学及生物学功能分析;5、验证。

样本收集

宏基因组样本面临着环境复杂、个体多样等问题,比如,每个人的年龄、饮食习惯、居住环境、药物摄取(特别是抗生素)等的不同,导致其肠道内菌群结构可能有较大不同,当我们研究特定因素对人体生理的影响时,如果样本量较小,就可能带来统计学分析的不便,甚至会对实际产生影响的生物学因素产生误判。所以我们通常建议选取环境因素类似的个体,并进行追踪研究,以减轻非微生物组带来的差异。同时,业内还提出了最小信息标准(MIMARKS、MIxS等),用于标准化收集样本的相关信息。

另一方面,样本的收集、保管方法,DNA的提取等也可能带来偏性,比如,不同类型的菌株可能适用于不同的裂解方式,导致提取到的DNA主要来自于容易裂解的菌株。同时,实验过程潜在的污染也是亟需重视的部分,不同的试剂、耗材,操作不当等都可能引入样本之外的微生物,面对这种情况,我们通常可以选取空白样本作为对照组,另一种策略是在样本中加入绝对定量的对照组(spike-in),以此来评估实验与分析方法的稳健性。

文库制备和测序

文库制备基本已是标准化流程,有很多成熟的试剂盒,值得一提的是,近年来出现了基于转座酶的tagmentation方法,其所需的DNA量更少,操作更为简便,已经广泛应用于各种高通量测序样本的文库制备,不过,由于转座酶有特殊的插入序列偏好性,其对于宏基因组带来的测序偏好还未被评估。同时,考虑到PCR带来的偏性,目前也有很多PCR-free的方法来制备文库,应根据实际情况进行选择。

测序平台的选择往往要依据实验目的而定,如果希望挖掘样本中低丰度的微生物信息,我们可能需要一个高通量、大数据的测序结果,Illumina推出的NextSeq、NovaSeq平台通量可达TB级别,不在乎测序经费的话不妨考虑一下;如果目的仅为分析样本中微生物的组分、谱系等,就可考虑经典的MiSeq、HiSeq平台;如果以序列拼接、组装为目的,则可考虑进一步使用第三代长读长的测序平台。

分析方法

拿到了序列信息后,我们需要得到的是样本中微生物的种类、丰度,后续进行关联分析、功能学分析等。所以,分辨出种类是重中之重。目前常见的分析思路有两种,一种是基于序列拼接,重组微生物基因组,另一种则直接将序列比对至已有的微生物基因组数据库。两种思路各有优劣:

技术特点  基于组装 基于比对
全面性 可构建多物种基因组,但只有达到足够覆盖度的物种才能被较好地组装。低丰度菌株信息容易被丢掉,因而reads利用率低 可提供多物种功能、结构信息,但局限于数据库提供的已知信息,且在mapping时可能产生误判
群落复杂性 对于复杂群落,只有部分物种可以被很好地组装 只要数据库内容足够、测序量足够,可以有效地分析大多数复杂群落
探索性 可以组装出新物种的基因组,提供更多数据支持 无法解决未知序列的来源问题
计算开销 需求较大 需求较小
人工辅助 基因组组装需要经验与技巧,还需要其它实验验证或辅助填gap 选择合适数据库即可
基于组装

对于单基因组重测序,序列的覆盖度往往是均一分布,我们也可据此进行序列矫正和重复序列的识别。而对于宏基因组,则很难保证覆盖度,测序量不够的情况下,不同菌株可能存在不同的测序丰度,这时往往需要降低参数k-mer,使得相应的组装算法难以高效完成。另外地,亲缘关系较近的菌株之间,由于序列相似性的问题,可能导致contig之间更加难以组装。

目前的宏基因组组装软件,一方面动态选择参数k-mer,一方面还要考虑内存优化问题,即使如此,计算得到的往往还是大量contig而非数个完整的基因组。

面对这种情况,研究者提出了binning的方法,根据物种内在的生物学联系进行分组归类,尽可能多地将contig拼接起来。常用于binning的生物学特征包括:核酸组成,如k-mer的碱基使用频率、GC含量等;丰度信息,如同一菌株的基因拷贝数比例是一定的,所以在不同样本中也应一致;甲基化模式,如特异的甲基化motif以区分不同菌株。

展望

微生物群落具有复杂的结构及多样性,其彼此间的相互作用关系、生化循环通路等无时不刻不影响着周边环境。宏观的生态学、营养学等手段已无法观察和定性,利用高通量测序技术解析宏基因组将成为研究的必备手段,相应的数据分析方法还需我们不断实践和改进。