测序数据被导入分析软件之后,不能只盯着拼接有没有成功就算完事。如果那些质量较差的碱基没有提前被过滤掉,后面再去做突变判断、克隆验证或者序列比对的时候,就很容易把测序过程里产生的错误信号,当成真实的序列差异来处理。在DNASTAR软件包里,通常利用SeqMan Ultra模块来完成低质量测序数据的筛选和低质量区段的截短,整个过程需要把峰形图、质量分数和自动修剪的结果结合起来观察,才能得到一个比较可靠的判断。
一、DNASTAR怎么筛低质量测序数据
在开始筛选低质量数据之前,先要确认一下导进来的文件,是不是那种带着峰图的原始测序文件,比如ABI格式的文件。如果手头只有普通的FASTA序列,软件就没办法倒回去查看每一个碱基对应的峰形和质量分数,很多判断也就做不下去了。
1、导入原始测序文件
打开SeqMan Ultra软件,把ABI测序文件添加到当前项目里。在Unassembled视图中可以看到已经导入的文件列表,凡是保留了原始峰图信息的序列,一般都可以继续点开Chromatogram窗口,从这个窗口里就可以观察峰的形状,再结合碱基的质量情况来做判断。
2、打开质量显示
用鼠标双击需要查看的那条目标序列,在界面下方就会出现对应的峰形图。如果把质量值的显示功能也给打开,就可以一边看着碱基的峰形,一边对照着它的质量分数来检查。碰到那种连续出现低峰、峰与峰之间互相重叠、背景噪声过高,或者碱基间距显得很乱的地方,通常都需要特别留意,因为这些往往是低质量区域比较典型的特征。
3、使用Quality Trim
在Unassembled视图里面,把Quality Trim这个选项给勾上,然后再执行Trim now。软件会根据质量分数的分布情况,自动去识别5‘端和3’端那些质量不太过关的区段,并且在对应的列里把打算截短的范围显示出来。这两头被剪掉的区域,在后面进行序列拼接和生成共有序列的时候,一般就不会再被采用进去了。
4、结合峰图人工复核
自动修剪只能算是一个初步的处理,后面还需要结合峰图来做人工复核。在截短的边界附近,如果峰形看上去仍然很清楚,可以酌情多保留几个碱基;反过来,假如已经被自动保留下来的区段里面,还能看到连续的杂峰或者明显的双峰,那就应该手动把修剪的范围再收紧一点。尤其是在做克隆验证和突变位点确认的时候,对于关键位置附近的序列,更不能只依赖自动修剪的结果就轻易下结论,一定要再靠眼睛确认一遍才保险。
二、DNASTAR低质量区段截短阈值怎么调整
在调整低质量区段的截短阈值时,不能一味地把数值往高里设。阈值如果设得太低,很多测序噪声就会被保留下来;可要是阈值设得太高,又很可能把本来还能用的序列切得太短,导致后续拼接时覆盖深度不够,同样会带来麻烦。
1、进入修剪设置
在SeqMan Ultra的序列导入界面,或者Trim相关的设置菜单里面,可以找到Quality Trim的参数设置区域。虽然不同版本的软件,界面上的一些名称可能会有一点点区别,但是里面通常都会包含质量值阈值、窗口长度,还有最短保留序列长度这样几个关键的调整项。
2、调整质量值阈值
假如修剪完成以后发现,低质量的碱基还是留下了太多,就可以适当地把质量阈值往上调高一些;要是出现大量原本可用的读段也被一并剪掉的情况,那就应该把阈值稍微降下来一点。调整完参数以后,最好不要一下子就批量应用到全部序列上,可以事先挑出几条有代表性的序列测试一下,看看保留的长度和峰图质量之间,是不是达到了一个比较平衡的状态,再决定要不要继续推广到整批数据。
3、调整窗口长度
窗口长度这个参数,决定了软件是用多长的一段连续区段来评判碱基质量的。如果把窗口设得太短,修剪的结果就容易受到个别异常峰值的干扰;要是设得太长,又可能把局部还算不错的好区段也一块儿裁掉了。对于那些本身数据波动就比较大的样本,适当把窗口加大一些,往往能让截短的结果变得更稳定,不会出现修剪范围忽大忽小的情况。
4、设置最短保留长度
有些测序读段,虽然两端的质量不行,可是中间的那一段还是有使用价值的;不过也有不少读段在经过修剪以后,只剩下很短的一小截,对拼接的贡献已经很有限了。这个时候就可以设定一个最短保留长度,凡是修剪后低于这个长度要求的读段,就把它们单独地标记出来或者直接排除掉,以免这些低质量的短片段混在里面,干扰后续的共有序列判断。
三、DNASTAR低质量截短后怎么复核
全部截短操作结束以后,最好不要马上就急着把最终的序列导出去。还得回过头去再检查一下关键区域的覆盖情况、正向和反向测序的结果是不是一致的,以及那些看起来不太对劲的碱基位点,这些复核步骤是不能省的。
1、检查保留区长度
把每一条序列修剪以后的Limits或者保留范围逐个看一遍,对于保留长度过短的读段,要单独抽出来仔细检查。如果这些短读段正好落在需要确认关键突变的区域,必要的时候最稳妥的办法还是安排一次重新测序,不要靠这种不太完整的数据勉强下结论。
2、检查拼接覆盖
切换到Alignment视图里面,去观察目标区域是不是仍然有足够数量的读段覆盖在上面。如果发现某一个区域最后只剩下了一条质量不怎么样的读段在单独支撑着,那么根据这个区域做出判断的时候就要格外谨慎,因为可信度会打很大折扣。
3、检查异常位点峰图
针对错配、插入、缺失以及疑似的突变位点,应该把对应位置的峰图展开来仔细看一看。假如正向读段和反向读段都共同支持同一个结果,那么可信程度就会高很多;要是只有单独一条读段显示出了差异,而且峰形又显得特别杂乱,那更有可能是测序质量本身的问题,而不一定代表真实的序列变化。
4、保留原始数据
修剪之前的ABI原始文件,还有整个项目的副本,都应该妥善地保存下来,不要随手就清理掉了。之后如果又需要重新复核某一个具体的位点,还可以把最早的峰图重新调出来加以确认,免得手里只剩下一份修剪过后的序列,想往回追溯都追溯不了了。
总结
在DNASTAR中筛选低质量测序数据,大致的顺序是先在SeqMan Ultra里面把ABI原始文件导入进去,然后利用Quality Trim功能,结合质量分数和峰图,把两端的低质量区段给修剪掉。在调整截短阈值的时候,需要同时顾及质量值、窗口长度和最短保留长度这几项,不能只一味地追求把数据截得更严格。修剪完成之后,还要再去检查一遍保留区段的长度、拼接时的覆盖深度,以及异常位点所对应的峰图情况,这样才能让后面的序列确认工作更加可靠。
