2017-02-20 13:03 来源:网友分享
2017年2月18日/生物谷BIOON/---在一项新的研究中,来自新英格兰生物学实验室公司(New England Biolabs Inc., 简称NEB)的一个研究团队发现储存在公共数据库中的DNA测序样品具有比期待中更高的低频突变错误率(low-frequency mutation error rate)。他们描述了他们如何开发出一种能够计算DNA测序样品中错误率的算法,以及当在两种公共基因组数据库中运行时,它揭示了什么。相关研究结果发表在2017年2月17日的Science期刊上,论文标题为“DNA damage is a pervasive cause of sequencing errors, directly confounding variant identification”。
当研究DNA在导致癌性肿瘤(cancerous tumor)的细胞突变中的作用时,研究人员依赖于储存测序信息的数据库的准确性,比如当尝试着找出趋势时,依赖于这些数据库中的信息寻找共性的那些研究人员。这些研究涉及对发生低频突变的不同人的基因组与总体人口的基因组进行比较,并且利用他们发现的结果构建癌症数据集。但是如今,NEB团队开展的这项研究对公共数据库的准确性提出质疑。
为了测量一种给定的数据集的准确率,NEB团队开发出一种算法,该算法能够被用来计算因测序过程期间发生DNA损伤而表现出突变(不是自然发生的突变)的序列数量。该团队随后利用他们的算法计算几种公共数据库(最为知名的是千人基因组计划和TCGA数据库的一部分)的错误率,他们报道他们发现这两种知名数据库的错误率分别是41%和73%。
NEB团队注意到他们的算法不能够揭示出这些非自然发生的DNA损伤的来源,但是提出它可能是由于在进行测序之前使用的某些样品制备技术导致的。他们也指出为测序仪开发出的其他算法能够测试它们自己的测序错误,但是由于缺乏非常有说服力的理由,它们并没有被广泛地使用。他们指出DNA测序仪开始这样做了。他们也注意到已在开发的新工具可能有助在制备期间让DNA损伤最小化,而且它们的使用可能改进公共数据库的准确性。