比对鉴定,拼接组装,功能分析
我们简要介绍两个常用的宏基因组数据分析工具包。
bioBakery workflows
bioBakery来自于The Huttenhower Lab,开发者们提供了多种多样的宏基因组数据分析工具,特别地,搭建了一套workflow以用于处理16S、宏基因组、宏转录组等相关数据,完成序列质控、宿主去除、谱系鉴定、丰度分析、功能预测等工作。整体流程主要基于reads mapping的策略,但也可以通过添加参数--run-assembly
完成基因组组装。
bioBakery workflows可以通过conda、pip或docker一键式安装,用下述命令
biobakery_workflows wmgx --input $INPUT --output $OUTPUT --run-assembly
一键式运行,还可根据数据处理结果一键式生成pdf或html报告,工业化标准,简直棒棒哒。相应数据库的下载可单另进行,在docker image中,新建如下文件夹,并设置数据库路径:
mkdir opt/biobakery_workflows_databases
mkdir opt/biobakery_workflows_databases/humann2
mkdir opt/biobakery_workflows_databases/humann2/utility_mapping
mkdir opt/biobakery_workflows_databases/humann2/chocophlan
mkdir opt/biobakery_workflows_databases/humann2/uniref
mkdir opt/biobakery_workflows_databases/kneaddata_db_human_genome
mkdir opt/biobakery_workflows_databases/strainphlan_db_markers
mkdir opt/biobakery_workflows_databases/strainphlan_db_reference
tar -xzf full_chocophlan_plus_viral.v0.1.1.tar.gz -C /opt/biobakery_workflows_databases/humann2/chocophlan
tar -xzf uniref90_annotated_1_1.tar.gz -C /opt/biobakery_workflows_databases/humann2/uniref
tar -xzf full_mapping_1_1.tar.gz -C /opt/biobakery_workflows_databases/humann2/utility_mapping
tar -xzf Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz -C /opt/biobakery_workflows_databases/kneaddata_db_human_genome
bowtie2-inspect /opt/conda/bin/metaphlan_databases/mpa_v20_m200 > /opt/biobakery_workflows_databases/strainphlan_db_markers/all_markers.fasta
humann2_config --update database_folders utility_mapping /opt/biobakery_workflows_databases/humann2/utility_mapping
humann2_config --update database_folders protein opt/biobakery_workflows_databases/humann2/uniref
humann2_config --update database_folders nucleotide /opt/biobakery_workflows_databases/humann2/chocophlan
MetaWRAP
MetaWRAP整合了基于assembly策略的常用软件工具,让宏基因组数据从质控、到组装、到分类、到功能分析的各个部分,实现一键式、模块化运行。MetaWRAP可以通过conda或者docker安装,数据库需单另下载,并手动修改config-metawrap文件。
read_qc | 序列质控、接头去除、宿主去除 |
assembly | 利用MegaHit或metaSPAdes进行序列拼接 |
kraken | 利用kraken分析reads、contigs的物种来源、比例 |
binning | 利用CONCOCT、MaxBin、metaBAT进行binning |
bin_refinement | 从上一步中整合出“更好的”binning结果 |
blobology | 可视化bins和物种分类的信息,考察binning的效果 |
quant_bins | 考察bins在不同样本间的丰度情况 |
reassemble_bins | 利用bin_refinement整合后的bins进一步组装 |
classify_bins | 搜索NCBI的nt、tax库进行分类分析 |
annotate_bins | 功能注释 |
要注意的是,MetaWRAP本身存在着些许bug,比如其目前只接受paired-end测序数据,但其中一些软件实际也可接受single-end,这时就需要手动coding了。同时,各工具也在不断升级换代,很多命令或参数可能过时,比如Kraken已经有2.0版本了,可以选择重新安装或coding。如果是docker的话,MetaWRAP的相关脚本位于/usr/local/bin/
下的metawrap-modules和metawrap-scripts文件夹。尽管存在缺点,MetaWRAP依然不失为一款很好的工具流程包,可以为我们的分析带来极大的参考和帮助。