2016-08-18 22:10 来源:网友分享
2016年08月18日讯 2001年当第一个人类基因组测序结果公布时,我(笔者)还是一名在研究组从事统计学数据分析的研究生,我们研究团队的目的就是发现肿瘤细胞和健康细胞之间基因表达水平的差异,像很多人一样,我也有着自己的想法,希望通过对30多亿个As, Cs, Ts及 Gs碱基进行分析得出一些可喜的结果,绘制人类细胞的精确线路图以及开发治疗疾病的新型疗法是我的同学和教授们经常谈到的话题,然而我却对这些数据不同的用途却更感兴趣一些,直到黑猩猩的基因组被测序完成后,我就知道我又有事儿要干了。
在生命进化树中,黑猩猩和人类亲缘关系最近,其机体的生物学特性和人类非常相似,然而却又存在着惊人的差异,不管是在消化酶类还是发音语言上都存在明显的不同;人类通常会遭受一系列疾病,但这些疾病似乎对黑猩猩并无多大影响,比如自闭症、精神分裂症、阿尔兹海默氏症、糖尿病等多种疾病,长期以来我对古人类的化石以及骨头的不同演变形式非常着迷,但有时这些骨头并不能告诉我们关于人类机体免疫系统和认知能力的进化历史,因此我们就开始研究如何利用癌症研究中的统计学方法来比较人类和黑猩猩机体DNA的差异,而我们的目标就是鉴别出使人类变得独一无二的遗传特性。
2005年黑猩猩的基因组测序结果公布,当时我正在加利福尼亚大学做博士后研究,此后研究者们又开始对另外12种脊椎动物进行研究,与此同时,计算机科学家们也忙于开发特殊算法来追踪多个物种相似区域中的DNA,当然我也进行了一些比较基因组的扫描研究,即通过写入了一些计算机程序来鉴别其它动物机体中保守的DNA序列,自从我们从古老祖先进化成为人类,机体的DNA才发生了快速的改变,而这些进化特性可以预测人类机体功能的缺失或修饰,我和其他同事就利用了两部分模型定义了人类基因组的快速进化区域,名为人类加速进化区(human accelerated regions,HARs),2006年我们发布了202个HARs的信息。
这项研究让人非常激动,但同时也会出现一些令人生畏的模式,仅有一小部分的HARs位于基因中,实际上我们并不知道绝大部分假设的功能性及特殊性的人类DNA序列到底是什么,更不必说其在人类进化过程中所扮演的角色了,HARs是一种短的,平均仅有227个碱基对长,明显小于基因的DNA序列,其看起来就好像是我们所说的“垃圾DNA”,而且科学家们从来没有对其进行深入研究过。
感谢测序技术带来的帮助,该技术可以产生出大量的基因组信息,而且不同实验室也对计算方法进行了一些调整,如今研究者得到的HARs组合清单中包括了将近3000个基因组片段,研究者指出,几乎所有的HARs都位于基因外部,有些则距离基因组中的基因距离较远。
那么在哺乳动物的进化历程中,HARs到底做了什么才使其序列保持永久不变的?每一个HAR中的多个人类突变又是如何改变其功能的?连续十年以来,我们的研究团队(格莱斯顿研究所)同其他研究者一直在调查这些问题,我们希望可以更好地理解为何人类和其他物种不一样,为何人类具有独特性?
特殊的人类基因调节子
HARs是人类基因组中的保守区域,其中部分HARs在黑猩猩和鸭嘴兽之间是几乎相同的,这些序列编码的信息非常关键,而且序列的改变能够改变基因中的重要指令,而这就使得研究人类基因组中HARs的突变变得尤为重要了。研究者推测,HARs序列的突变会破坏或者改变基因调节子的功能,同时研究者鉴别出的头两个HARs就从功能特性上支持了这一假设。
HAR1并不会编码蛋白质,而是会编码长链的RNA,研究者推测,HAR1的RNA能够折叠形成一个三维结构,因为其保守的序列具有一种回文结构,这些结构能够配对形成一系列互联的茎样结构,这些结构看起来就好像梯子一样(DNA双螺旋结构),随后研究人员在体外通过合成人类和黑猩猩的HAR1 RNA,鉴别出了这种RNA结构,随即证实了计算机预测的结果;随后通过标记人类和猕猴胚胎中的HAR1,研究者就发现,在大脑皮质模式和布局形成过程中,RNAs就会在神经元中发挥功能,大脑皮质是人类进化过程中尺寸能够扩张的一种大脑结构,目前研究者并不清楚哪种基因的HAR1可以发挥调节作用。
HAR2(HACNS1)既不会编码蛋白,也不会编码RNA,其功能就好比增强子一样,可以增加或降低基因的表达水平,增强子距离其所调节的基因又数千个碱基那么远,而且一旦增强子进入物理距离以内其就会使得目标基因被激活表达;对小鼠的研究结果表明,在多个胚胎组织中,人类机体的HAR2处于活性状态,目前研究者并不清楚HAR2调节基因表达的分子机制,研究者指出,另一种名为GBX2的转录因子也能够控制参与胚胎形态发生的基因的表达。
基于前期的研究发现,研究者揭示了其它HARs在基因调节过程所扮演的角色,而这还要感谢先进技术的帮忙,这些技术能够帮助研究者在单细胞水平下测定基因表达的水平,并且追踪结合DNA的蛋白质的位点,同时还能够评估基因组中其它的表观遗传特性;将相关的研究信息整合到计算机模型中,研究者们就推测5%的HARs的功能就类似于非编码性的RNAs,同时大部分的HARs可以作为增强子在胚胎发育过程中帮助控制基因的表达。
为了更深入具体地验证这种假设,研究小组(笔者)开始对大约100个快速进化的HARs的功能进行研究,研究者推测这些HARs具有增强子的活性,研究者将构建的报道子注入到受精的小鼠胚胎和鱼类胚胎中,这种报道子中在基因之前加入了黑猩猩的HAR序列;截止到目前为止,进行增强子活性检测三分之二的HARs在机体发育期间都可以开启基因的表达,对于26个增强子而言,研究者对人类序列重复了相关的实验,当人类突变开始出现时,有8个HARs表现出了增强子活性的差异,而这些差异可以修饰四肢(HAR2, 2xHAR114)、眼部(HAR25)及中枢神经系统(2xHAR142, 2xHAR238, 2xHAR164, 2xHAR170, ANC516/HARE5)发育过程中基因的表达情况。
许多HARs都位于控制机体基础发育过程的基因位置附近,因此其改变的调节功能或许对于人类的生物学特性有着深远的影响;相比黑猩猩的HAR而言,人类机体中一种HAR增强子(ANC516/HARE5)处于发育早期时在大脑的较大一部分区域中都处于活性状态,人类机体中的HARE5可以增强靶向基因Frizzled 8的表达,基因Frizzled 8会影响小鼠大脑的尺寸及发育。
相关的实验结果表明,在人类进化过程中HARs能够改变关键的机体发育程序,在对HARE5的研究过程中,研究者发现,HAR序列能够影响对人类进化非常重要的器官,而且HARs的突变或许会影响到人类的一些特性,比如运动技能、言语以及认知功能等;但将HAR突变同有机体的创新机制联系起来就有点困难了,因为目前研究者很难检测人类或猿类遗传改变所产生的影响,因此建立上述关联才是研究者未来要面对的巨大挑战。
HARs的浮现
人类和黑猩猩最近的祖先大约生活在600万年前,化石记录数据显示,从那时开始两个物种(人类和黑猩猩)在很多方面都开始了持续性的改变,因此知晓人类进化期间HAR的突变状况,或许就能够帮助科学家们将HAR同人类机体不断改变的特性相联系;相反,随着我们阐明HAR突变所影响的人类生物性过程开始,突变的年龄或许也能够帮助确定化石难以指示的人类机体特性。
估计HAR的进化非常具有挑战性,因为这些计算过程依赖于对古人类基因组数据的比较,没有了沿着人类谱系的分子路标,我们很难说在人类和黑猩猩分开之后HAR的进化是对的,但对古老DNA的测序技术或许就能够给我们一些提示,比如,通过将人类的HAR序列同古人类HAR序列进行比较,研究者就能够估计,HAR的突变到底是在共同祖先出现之前、之后还是出现期间发生的,因此大多数的HAR突变往往都已经有数百万年的历史了,而且其也和灭绝的古人类有一部分相同(黑猩猩则不是)。
然而一些HAR 是近些年才开始进化产生的,HARs中大约10%的突变具有多态性,这就意味着,仅有一部分人类会携带这种突变的序列,而其他人群则会携带在黑猩猩机体中出现的DNA序列;HARs多态性的改变往往是在人类进化的最近阶段发生的,其并不太可能有超过100万年的历史,但研究者却在部分人群中发现了新型的HAR突变,这或许就意味着他们可以提前知晓大约6万年前的人类长距离迁移的过程了。
加速推进创造HARs
从统计学上来讲,高度保守的DNA序列在600万年的进化历程中将会改变很多次这种可能性几乎为零,也就是说,除非有某种驱动力来选择性地抵御序列突然改变引发的突变,比如HAR2就会开启参与人类四肢发育的基因的表达,而这要感谢于特殊序列的缺失。
长期以来科学家们一直希望能够阐明HARs的功能以及其在人类进化过程中所扮演的角色,但如今研究者仍然不能深入理解HARs在机体发育和其它过程中的特殊功能,其中研究者面临的一个主要的挑战就是如何建立因果关系,庆幸的是,当前新技术的不断涌现使得科学家们可以通过灵长类动物的皮肤组织来制造出大脑、心脏和肝脏细胞,同时在实验室对这些细胞的DNA进行编辑,于是研究者们就能够证实是否特殊的人类突变能够改变人类或灵长类机体细胞中HARs激活细胞表达的能力。此外,利用高通量的基因组技术研究者就可以测定增强子的活性,同时对大量HARs进行检测,这一项项激动人心的结果或将加速研究者对HAR功能的理解,同时也将帮助他们理解塑造HARs的进化驱动力。当然,研究者还指出,高效的计算技术和算法程序对于HAR的研究也至关重要,如今研究者发现了202个原始的HARs,他们相信随着高端技术的开发以及不断的深入研究,未来他们或将对更多的HARs进行研究,并且阐明HARs的功能,以及实现在人类细胞中对HARs进行精准化编辑。