如何理解PacBio的准确度

如题所述

如何理解PacBio的准确度
第三代测序中的PacBio单分子实时(Single Molecule Real-Time, SMRT)DNA测序可以实现超过99.999%(QV50)的高度精确测序,且不受DNA序列中GC和AT含量的影响,平均读长可达10-15kb(最长>40kb),这是如何实现的呢?这是因为SMRT技术在与DNA测序精确度相关的三个方面均有独到之处:

1. Consensus accuracy(一致性准确性)

2. Sequence context bias(测序偏好性)

3. Mappability of sequence reads(测序reads的map表现)

本文将从专业客观的角度从这三方面详细阐述SMRT测序技术的表现,图文并茂,数据详实,请各位看官留步,细细品味。

1. Consensus accuracy(一致性准确性)

一个典型的测序过程通常包括三个基本步骤:(i)生成测序reads,(ii)将生成的reads mapping到已知的参考序列上,(iii)为了得到最终的序列而生成consensus。如果DNA样本是未知起源的,那么第(ii)步就会被de novo基因组组装所代替,以便生成一个新的参考基因组。最后一步是将原始测序reads mapping到assembly结果。

为了使大家更好的理解SMRT测序技术是怎样达到准确度>99.999%的,图1我们先来review一下在second-generation sequencing系统中,测序结果是怎样得到的。

在这个例子中,一条120bp的read被mapping到参考基因组上,红色箭头表示与参考基因组不一致的碱基。但是我们不能单凭这一条read的mapping结果就给出生物学结论,因为我们不知道这种不一致究竟来自于真正的生物学变异还是仅仅是由于测序错误导致的。同样,单凭一条read也无法call出heterozygous SNPs,因为在这种变异里,我们至少需要来自父方和母方染色体的各一条read。因此,要想获得真实准确的生物学发现,必须通过将多条reads进行averaging,然后与参考基因组的相同区域进行map,换句话说,需要进行building consensus。

在这个例子中,来自于10条reads的average序列信息(相当于10?#65289;被用于判断与参考位置究竟是match,还是homozygous SNPs,亦或是heterozygous SNPs。那么,同样的策略其实也被用于SMRT测序技术中(见图2)。

SMRT测序可以产生更长的reads(平均读长可达10-15kb,最长>40kb),但是为了与图1一致,便于理解,我们在图2还是只看120bp的长度。虽然在SMRT技术中,single-pass reads更容易出错(平均错误率11%),这些错误主要由于deletions(水平红线)和insertions(垂直红线)引起。考虑到SMRT-sequencing reads的这些特征,Pacific Biosciences公司开发了名为BLASR1的mapping工具,专门为mapping SMRT-sequencing reads进行了优化。尽管单次读取(single-pass)的错误率稍高,但是使用BLASR还是可以准确的将SMRT-sequencing reads mapping到参考序列的相应位置。因此,正如图1中二代测序的例子一样,无论哪种采用技术,没有人会关注一个碱基只被测一次的结果,最终结果都是经过consensus分析之后得到的,比如,当做到10?#30340;时候,每个位置的序列信息就是由10次读取之后产生的平均结果而定(如图中垂直的框)。所以,对于PacBio三代测序来说,针对每一个碱基,10次读取中有9次都是正确的,足够让我们判断出该位置的正确信息。

根据SMRT-sequencing reads的这一特点,PacBio公司也开发了一个名为Quiver的consensus工具,可以生成高质量的consensus序列(www.pacbiodevnet.com/Quiver)。

然而,如果测序方法本身存在系统错误,无论consensus之后的序列是不是正确,测序结果都将会受到影响。也就是说,如果某个碱基被系统地读错,那么在consensus之后它也仍然是错的,且这一错误是无法通过增加coverage克服的。而SMRT测序技术的consensus准确率之所以能够>99.999%,最关键的一点就是由于single-pass的错误是随机错误,这意味着随着coverage的增加,这种随机错误可以很快被消减掉。这点已经有多篇publications进行了理论及实践验证2,3。图3说明了SMRT测序的准确度与coverage之间的关系,星号代表与reference达到100%一致。

为了判断准确度是否能达到QV50或以上,需要把consensus序列与已知的精准的参考序列相比较(例如已有金标准参考序列的物种)。可以采用某些已被Sanger测序广泛测过的细菌基因组作为标准,如E.coli和S.aureus。该图表明了虽然SMRT-sequencing reads的单次读取的准确性比其他方法略低,但是一旦增加coverage,准确率就可以快速提升,很多情况下可以实现完美的参考基因组。我们可以从Table 1看到,SMRT测序的准确性甚至可以达到>QV60,也就是1百万个碱基里面只发生1个碱基错误。

SMRT Sequencing的consensus准确率可以超越其他测序方法,就是因为它是随机错误。这也是很多研究都采用SMRT Sequencing来验证基于其他平台发现的SNPs的根本原因2,4-Table 1中高亮显示的就是consensus之后的准确性。在该例中,对于任何测序平台来说,有意义的也都是consensus结果,而非单次读取的结果。

图4是关于SNP验证的代表性的例子,直接用SMRT测序数据验证Illumina测序平台产生的SNP call,清楚表明了SMRT测序准确识别生物学变异的能力。

2. Sequence Context Bias(测序偏好性)

以上的讨论还仅仅限于那些容易被测到的DNA序列。事实上,许多测序方法由于自身技术及原理的局限性,对于某些序列或者极端的碱基组成无能为力,所以对于这些区域,准确率是0%。

尤其对于极端AT-rich或GC-rich的DNA,高度重复序列,长同型核苷酸延伸(long homonucleotide stretches)等区域,许多测序系统完全测不到或者测序质量不好。同样,回文序列在这些测序平台中也无法被测到,因为回文序列DNA在样本制备的扩增阶段就已经丢失了6。基因组上这些区域往往缺乏coverage,得到的测序结果不完整,导致基因组拼接时contigs片段化严重,有时甚至会丢失掉10%以上的基因组7,8,这无疑妨碍了全面鉴定DNA序列以及对于完整基因组的构建。

SMRT测序并不会表现出这种序列偏好性,在整个基因组的表现都非常稳定,即便是那些被认为非常难测的区域。这一优势可被用于close那些其他测序平台上产生的gaps。一个极端的例子可以用来证明SMRT测序的无偏好性,那就是对数千个碱基组成的100%GC含量区域的测序:CGG三核苷酸的重复会导致Fragile X 综合征10(见图5)。同样,因为SMRT技术在样本制备时无需扩增,也不会收到回文序列的影响。

3. Mappability of Sequence Reads(测序reads的map表现)

即便测序得到的read可以达到100%准确,但是,如果它不能够被准确的map到参考基因组上,我们仍然得不到可用的信息,或者说得到的是带有误导性质的信息。这也就是为什么read长度可以直接影响测序的准确度。如果read的长度不足以跨越基因组上含有至少一个特有的侧翼序列的重复区域,该read的位置就不能被明确定义,因而,任何通过该read得到的variation信息都是不明确的,也就是说无法准确看出该variation到底在发生在基因组的哪个区域。

这种不正确的mapping会导致生物学变异的虚假分配(false assignments of biological variation)2。图6比较了Illumina reads和SMRT-sequencing reads与人类基因组上一段重复区域mapping的结果。图中能看到系统错误对于mapping的影响,Illumina的reads由于长度不够,出现了很多错误匹配,从而造成假阳性SNP calls。

SMRT-sequencing reads则可以避免这种错误匹配,因为其读长长,长达上万碱基的reads可以跨越基因组中重复区域并且把这些reads定位在基因组上正确的位置,从而纠正错误的SNP分配。

结论

正是由于SMRT技术具有以上三大特点:(i)产生的是随机误差而非系统误差;(ii)没有DNA序列的偏好性;(iii)具有足以跨越重复区域且避免错误匹配的长读长。才能生成真正全面且高度精确的测序结果。

附录:微小变异检测

对于那些关注同一样本中低频率(<10%)存在的DNA分子的应用,确实是需要尽可能高的single-read准确率的,以便能进行有效区分。对于这些应用,Pacific Bioscience也开发了一种测序模式,可以在分子内进行consensus,用这种方式产生的单分子测序reads的准确率与相应读长下一代和二代测序的准确率相当,甚至是还要高。这是通过DNA模板制备时生成的SMRTbell的环状结构达到的8,这使得酶在同一个DNA环上通过不断绕圈,从而可以对同一个碱基进行多次测序。

SMRT测序是目前唯一可以生成分子内consensus的技术,即便对于样本中含量很低的DNA分子,也可以得到高精确度的碱基序列。这一能力已经被利用于检测急性髓性白血病中的低频突变9。

Table 2列出了上文提到的多分子consensus和单分子consensus模式分别适用的应用方向。
温馨提示:答案为网友推荐,仅供参考