2016-08-22 10:22 来源:网友分享
2016年08月22日讯 近日,来自MIT博德研究所和哈佛大学的研究人员通过研究解析并分析了迄今为止最大规模的人类蛋白质编码序列集合,作为ExAC的成员,研究者们从2014年就开始在研究团体间进行原始数据的公开,ExAC(Exome Aggregation Consortium)是一个由多个国家的科研机构组成的外显子组测序数据共享平台。
在这项最新研究中,研究者对来自全世界的外显子组数据进行分析(其中一部分是2015年国际基因组大会上展示的相关数据),他们强调了利用大型数据库的重要性,因为基于大型数据库的数据,研究者们就可以鉴别出引发罕见疾病的突变以及对突变非常敏感的基因,包括功能缺失的基因等,相关的研究成果发表在了8月17日的Nature杂志上。
来自多伦多大学的研究人员Stephen Scherer指出,这项工作的重要部分就是大量的外显子组数据,这些数据可以帮助研究人员和临床研究团队以很多方式来利用。华盛顿大学的研究者Jay Shendure表示,这是我们对人类基因组进行实质性研究最为深入的一次。
博德研究所的Daniel MacArthur教授说道,蛋白质编码序列虽然在人类基因组中不到2%,但其却是我们能够进行最好理解的基因组部分,而且这些基因组区域的信息往往和大部分突变引发的严重疾病直接相关。MacArthur和同事将来自20多个特殊疾病研究团队研究者所提供的外显子组数据进行混合,随后他们创建了一个来自60706名个体中超过740万个遗传变异体的清单,该数据库的大小是此前任何一个外显子组数据库的10倍,这些信息占据了几乎一千T字节的存储(a petabyte of),1 petabyte相当于1百万个千兆字节(gigabytes),据研究者介绍,这个数据库的信息相当于4000台笔记本电脑中原始数据的集合。
研究者表示,许多研究计划都直接研究常见的人类疾病,同时都获得了不同的成功,但实际上除了预期的目的,这些数据或许还有其它用途。研究者Monkol Lek就表示,在基因组区域,尤其是易于突变的基因组区域中,平均每隔8个碱基对我们都能发现突变的存在,通常我们都会不断捕捉到相同的突变,而这就表明,这些数据库足够大,从而使得这些区域中的突变慢慢变得饱和,一旦数据库不够大研究者就不能看到在特殊的位点上看到可能性的遗传突变,于是研究者就捕捉到了63%的几乎所有可能性的同义突变,当然这让研究者非常激动。
大量的外显子组数据可以帮助研究人员在此前认为具有致病性的192个等位基因突变体(ExAC数据库中具有相对较高的频率)中发现183个突变体实际上很有可能是良性的;同时研究小组还鉴别出了3230个基因和突变不耐受直接相关,甚至当基因的第二个拷贝是野生型的也是如此;研究者指出,这些基因中有72%的基因和任何一种疾病的发病都无关,这就说明,利用来自表面健康人群的数据就可以发现一旦基因突变就会引发人类疾病的发生。
来自帝国理工学院的研究者Roddy Walsh表示,ExAC数据库利用了来自7个不同的对照研究和常见疾病梯队分析研究中样本的外显子组测序的结果,通过重新分析整个数据库中的遗传突变,就可以帮助产生一致性且具有高度准确性的罕见突变数据。Walsh指出,利用收集的遗传信息我们就可以评估参与多基因遗传性疾病发生的基因的表达情况,如今研究小组已经将ExAC的数据同7855名临床心肌病患者的数据进行对比分析,研究者们发现,许多和心肌病假设相关的基因似乎都不太可能会引发心肌病的发生;通过重点关注已经证实的基因,研究者希望可以通过减少不确定和假阳性结果的出现数量,来改善对心肌病的临床遗传检测。
在一项研究报告中,来自美国西奈山伊坎医学院(Icahn School of Medicine)的研究者Douglas Ruderfer及其同事通过对ExAC数据库中发现的拷贝数目变异(CNVs)的模式和频率进行分析,研究者发现,至少在长度为1000个碱基对的序列中,CNVs序列的缺失或获得都非常罕见,而且相比单核苷酸的改变或插入、缺失突变而言,CNVs都很难检测,研究者认为,平均而言单个外显子组都会包含0.81个删除的基因和1.75个重复的基因。
当前ExAc数据库代表了来自非洲/非洲裔美国人、拉丁美洲、东亚、欧洲及东南亚后裔个体的信息,对于研究者MacArthur而言,将来的研究目标就是填补被忽视人群的相关数据信息,其中包括来自中东和非洲部分地区人群的信息等。最后研究者说道,进行这项计划的目的就是在今年10月份举办的美国人类遗传学会年会上发布几乎两倍数量的人群外显子组的最新数据。