变异分析涉及的步骤数量没有统一的标准,有些项目需要的步骤比其他项目多。在这本电子书中,我们根据您通常需要从一种工具切换到另一种工具以继续推进流程的时间,将工作流程的生物信息学部分分为七个步骤。
如果您具备生物信息学专业知识,则可以使用脚本和开源工具将这些步骤构建到自动化或半自动化流程中。请注意,一些商业变异分析软件包将其中两个或多个步骤组合成一个流程。如果您与核心机构合作,他们可能有自己的流程,涵盖部分或全部这些步骤,然后再将数据交付给您。
如果您是变异分析的新手,请务必进行研究并制定计划,以确保上一步的输出可供路径上的下一个工具读取。如果核心设施或生物信息学小组正在为您完成部分工作,您需要了解他们将向您提供哪些数据,以便您可以相应地规划下一步。
变体分析概述

准备步骤
选择测序策略并准备样本
虽然这本电子书主要关注研究人类变异所涉及的生物信息学和数据分析步骤,但在深入研究数据之前,您需要做出许多重要决定。您设计和执行测序策略的方式将极大地影响数据的质量,因此在开始实验之前,请务必考虑您的分析目标。
在获取 DNA 样本之前,首先确定您要进行种系分析还是体细胞分析。体细胞分析比较来自单个个体的相关组织样本,常用于癌症研究。相比之下,种系分析比较来自不同个体的样本,这些样本可能对某一性状是杂合的或纯合的。
另一个考虑因素是您要进行全基因组、全外显子组还是 RNA 测序。所有这些都可以产生重要的结果并有助于阐明疾病的遗传原因。当您想要研究基因表达的差异而不是简单地研究 DNA 序列中是否存在 SNP 时,RNA-Seq 非常有用。全基因组测序 (WGS) 通常不用于人类受试者。一个原因是它对大多数研究人员来说过于昂贵,尽管成本已大幅下降。另一个问题是非编码变异的重要性通常比编码变化更难确定,而且它们的丰富程度(比编码区域多约 400 倍)使数据处理和分析更加繁琐和低效。技术改进和成本降低使 WGS 成为需要时更可行的选择。
由于上述问题,全外显子组测序(仅考虑编码蛋白质的约 1-2% 的 DNA)在变异分析研究中比全基因组测序更为常见。需要注意的一点是,外显子组捕获试剂盒可能会错过一些感兴趣的区域,从而可能错过重要的变异。
获得合适的人类 DNA 后,每个测序平台(例如 Sanger、Illumina、Ion Torrent、PacBio、Oxford Nanopore)都会有自己的湿实验室协议,用于特定于该技术的样品制备。例如,短读长样品制备通常需要碎片化和 PCR 扩增步骤,而长读长制备则要不惜一切代价避免 DNA 碎片化。如果您想提高映射准确性并更清楚地识别结构重排,请考虑使用可产生长读长、双端或配对读长的技术。
最后的初步步骤是实际测序,通常在专用的测序设施上进行。
生物信息学步骤
测序完成后,您就会获得 FASTQ 格式或变异调用格式 (VCF) 的序列数据,然后就可以开始分析了。其余步骤都取决于您的生物信息学软件以及您使用它的能力。请记住,其中一些步骤可能在您收到数据之前就已经完成了。
步骤 1:导入并清理测序数据
如果您的数据文件是 FASTQ 格式,则在此步骤中您将开始将文件上传到软件应用程序中进行评估和可能的清理。
NGS 数据文件(Illumina 和 Ion Torrent)通常使用与测序仪器相关的管道工具进行清理。这通常就足够了。但是,一些输出序列文件可以通过使用 FastQC 等第三方工具进行扫描来获益。相比之下,Sanger 数据在测序过程中通常不会被清理。Sanger 数据通常在 5' 和 3' 端包含许多碱基调用错误,而色谱峰的质量并不高。这种类型的数据需要能够准确修剪序列末端的高质量软件程序。
第 2 步:将读取的数据与参考基因组对齐
此步骤涉及使用计算机程序将读取的序列与现有的参考基因组对齐/映射;这通常随后进行局部重新对齐。人类参考基因组的两个最广泛使用的公共来源是基因组参考联盟 (GRC),它提供 GRCh36 至 GRCh38,以及圣克鲁斯大学 (UCSC),它提供 hg18 和 hg19 版本。

常用的比对工具有SOAP、Bowtie/Bowtie2、BWA、MOSAIK等,比对结果一般保存为BAM或CRAM格式的文件。
步骤 3:删除 PCR 重复
进行全基因组或全外显子组测序时,应在比对步骤后立即移除 PCR 重复序列。这可防止源自单个模板的重复读取干扰后续的变异调用统计信息。商业解决方案可以自动检测并移除变异调用程序中的重复读取。可用于此目的的一个工具是 Picard Tools,但它仅适用于 BAM 文件。
步骤 4:调用变体和 INDELS
变异调用是将比对的读取序列与参考序列进行比较以找到不一致位置的过程。变异主要有四种类型:
- 单核苷酸多态性(SNP)
- 小插入和删除 (INDEL)
- 较大的插入/缺失,称为“结构变异”(SV)
- 拷贝数变异 (CNV),其中一段 DNA 重复多次

目前已有多种变异检测工具可供使用,通常分为四类:
- 种系调用工具(包括 CRISP、SAMtools、GATK),通常用于阐明罕见疾病的原因。
- 体细胞调用程序(包括 GATK、SomaticSniper)是大多数癌症研究使用的选择。
- 拷贝数变异 (CNV) 查找器(包括 CONTRA、CNVnator、RDXplorer)。CNV 可以在全基因组和全外显子组组装中检测到,而其他结构变异则无法检测到。
- 非 CNV 结构变异 (SV) 查找器(包括 ExomeCNV、CONTRA)用于查找倒位、易位或较大的 INDEL。
为您的数据选择正确的变异调用工具至关重要。使用错误的变异调用流程可能会导致遗漏变异调用。此外,不同的变异调用工具已被证明可以更好地与不同类型的测序技术配合使用。
比对和变体调用之后,可以执行样本交叉标准化或可以利用 BED 文件过滤变体列表的有限数量的应用程序现在将执行这些步骤。
GATK 和其他变异检出流程的输出是变异检出格式 (VCF) 文件。VCF 是一种可扩展的制表符分隔文本文件,具有与列的顺序和内容相关的特定规则。每行代表一个单核苷酸变异 (SNV)、插入、删除或其他序列变异。每个变异都通过字母和数字的唯一组合进行唯一标识,并且该文件可能包含来自多个数据库的标识符。
步骤 5:过滤数据以发现重要的变体
如果步骤 1-4 听起来不熟悉或与您的经验不相关,那是因为它们通常由核心设施或生物信息学小组执行。此步骤(可能从导入一个或多个 VCF 文件开始)是大多数研究人员直接参与的第一步。
所有测序平台都会产生包含许多碱基级错误的序列读取,因此应用能够将“测序噪音”与变异“信号”分开的过滤至关重要。大部分基线过滤可以以自动化方式完成,最好使用统计置信度测量,但有些可能需要您运行一些初始的“噪音过滤”工具。
即使过滤掉测序错误,典型的人类外显子组集仍将包含数千个变体。现在您必须依靠通常导入分析流程的附加标准来区分不感兴趣的变体和具有功能或临床意义的变体。一些支持过滤的开源工具是 VCF Tools 和 SnpSift。
可以使用许多过滤策略,但这里仅举四个示例:
- 过滤掉同义的 SNP。由于这些 SNP 编码的是正常氨基酸,因此不会产生有害影响。
- 对于全基因组研究,过滤掉位于非编码区域的变异。
- 过滤掉常见等位基因。例如,我们可以合理地假设导致罕见肾病的突变在人类群体中很少见。因此,如果 SNP 在人群中很常见(即等位基因频率高),则它不太可能是导致罕见疾病的原因,可以从考虑中排除。
- 一些基于云的工具(例如 Integrative Genomics Viewer)和独立应用程序(CLC Bio、Lasergene)可让您比较来自多个 VCF 文件的变异。例如,要查找与特定形式的脑癌相关的变异,您可以过滤掉在脑癌患者和对照组中发现的变异,并专注于仅在癌症患者中发现的变异。
第 6 步:确定变异如何影响基因
此步骤的目的是确定变异的功能和临床后果以及它们如何影响基因。最好使用包含一个或多个样本的变异和功能信息的数据表来实现这一点,并且可以通过可视化组装的序列读取轻松验证变异调用。这通常使用基因组浏览器来完成,基因组浏览器有独立版本和基于网络的版本。
独立浏览器的一个优点是,大多数浏览器都提供图形用户界面 (GUI),支持缩放、更简单的可视化以及交互式浏览。然而,一个缺点是,您可能需要为每个样本导入大量不同的数据轨道。此外,根据可用的分析工具,多个样本的交叉比较和分析可能具有挑战性。
基于网络的基因组浏览器(例如 Ensembl、UCSC Genome Browser、ANNOVAR、AnnTools、VariantAnnotation、NGS-SNP 和 snpEff)的一个优点是,您通常不需要下载或更新人类变异注释数据库。另一方面,您必须将自己的专有数据上传到远程服务器,由于数据隐私政策,这对所有组织来说都不是一个可行的选择。此外,其中一些工具是命令行驱动的,可能需要在命令行界面中输入多个长字符串。
基因组浏览器至少应允许您显示对齐的读取、清晰地查看变体(例如,通过以不同的颜色显示它们)、查看注释信息以及通过超链接在线访问相应的公共数据库(例如,Ensembl、GWAS 目录、EVA、UniProt、dbSNP、ClinVar)条目。大多数工具仅允许可视化 SNP,而少数工具还支持查看 CNV 和 SV。一些基因组可视化工具允许您比较来自多个个体甚至多个生物体的序列。
一旦你将变异列表制成表格,你可能会发现一些数据有限的变异。大多数搜索引擎只能挖掘论文标题和摘要,而 85% 的变异都没有提及。这意味着巨大的机会被浪费了。虽然众包 ClinVar 平台是一个有用的变异解释和相关信息存储库,但它还远远不够完整。事实上,平均每个变异提交的参考文献中有 31% 是假阳性,30% 的提交文献根本没有参考文献。总的来说,这些统计数据的下游影响可能很严重,可能会导致错误的结论和/或漏诊。为了缓解这些信息质量问题,可以使用 Mastermind 基因组搜索引擎进行更深入的分析,这将在第 3 章中详细讨论。
步骤 7(可选):可视化变体对 3D 蛋白质结构的影响
变异分析流程中的一个可选步骤是尝试确定给定变异对其编码的蛋白质的 3D 结构的影响。有时,3D 结构可能受到的影响很小,甚至根本没有影响。在其他情况下,变异可能会导致蛋白质结构发生剧烈变化,从而对蛋白质功能产生重大影响。
I-Mutant 和 SDM 等工具可以预测变体如何影响蛋白质稳定性,而 I-TASSER 和 Phyre2 等结构预测工具可以预测对蛋白质结构的影响。然而,后一种工具只有在有结构同源物的情况下才会起作用。在某些情况下,您可能会发现变体蛋白质的结构已经通过 X 射线晶体学确定,并且可以通过蛋白质数据库 (PDB) 下载。您可以通过各种程序查看这些结构,包括 LiteMol 查看器。

更简单的选择是使用 DNASTAR 的Protean 3D应用程序来完成所有这些任务。Protean 3D 的“蛋白质设计”工作流程让您可以使用向导轻松“突变”一个或多个残基,然后计算与原始结构相比,这些变化是稳定还是不稳定。NovaFold是一款单独授权的应用程序,通过 Protean 3D 界面运行,由屡获殊荣的 I-TASSER 算法提供支持,可用于预测由突变残基引起的新蛋白质结构。Protean 3D 让您可以将原始和突变蛋白质视为完全可定制和可旋转的 3D 结构。