基因王国之三:什么?我们手上的“人类基因组”并不是“完整版”?
发布时间:2024-12-05
出品:科普中国
作者:李雷
监制:中国科普博览

在《基因王国之二》中,我们为大家介绍了从基因到基因组的坎坷与曲折,在六国共同合作下,我们开启了人类基因组计划,并在2001年向全球公布了人类基因组。

不过,我们已经拿到完整的人类基因组了吗?

答案是否定的。

“人类基因组”并不完整

其实,人类基因组计划完成之后还留下了很多缺憾,典型的就是“人类基因组”并不完整。

我们想象中的基因组是一条从头到尾用ATGC组成的线条,但实际上并非如此。基因组在人体内是以染色体的形式分布的,人体一共有23对染色体,因此,假如人类基因组是一个小区,那么因为基因组本身分成了不同的染色体,所以我们可以将其理解为不同的单元楼。

理论上人类的基因组应该是23对,也就是22对被称为常染色体的单元楼,加上2条性染色体X染色体和Y染色体组成的性染色体楼,以及1段额外的线粒体基因大楼,这些加起来才是人类的基因组。

然而实际上,我们得到的基因组不只是分成这些单元楼,每一栋单元楼本身还存在一些楼层是悬空的,而这些悬空的东西,并非不存在的,只是我们当时的技术无法读取。

举个例子,最典型的是重复序列。虽然我们的基因组是ATGC组成的,但是经常会出现一些DNA重复序列,比如,有时候会出现2-20个左右的核苷酸单元被重复成百上千次等,这种重复形式根据科学家们总结至少可以分为常见重复和片段重复等。

举两个具体的例子,长达几十个的T——“TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT”,和亲子鉴定中常用的D21S11(数目可变的TCTA和TCTG重复(TCTA)n(TCTG)n(TCTA)nTA(TCTA)nTCA(TCTA)nTCCATA(TCTA)n)。那么这个时候,我们的测序就无法辨认它的位置和具体信息了。不仅如此,这些序列还往往处于一些特殊位置,比如染色体中间部位的着丝粒和末端的端粒。

结果就是,受限于当时的技术,我们获得的人类基因组有无数个空缺,这些空缺有多大呢?加起来占到了人类基因组的8%左右。

基因组序列

(图片来源:science)

为了解决这个问题,科学家们一直在想法设法弥补这些空缺。

从2003年起,国际科研团队组成“端粒到端粒联盟”(T2T)来努力破解这些复杂区域的序列。一开始,联盟的工作进展很慢,因为这些区域往往是重复的区域,我们的计算机很难把重复区域的先后顺序以及具体组成区分开来。

大家也许能想到是什么给事情带来了转折,没错,又是技术革新。直到一种全新的测序技术出现,才为解决这个难题带来了曙光,这个技术就是长片段DNA测序技术,又被称为第三代测序技术。

在过去,无论是一代测序还是二代测序,一个单元长度都是几百个碱基左右,这就导致如果一段基因上反复出现重复片段,那么我们就没法进行了,因为无法区分它们的先后顺序和具体组成。

而新的测序技术可以一次性从头到尾读取几万甚至几十万的长度,这么长的区域基本上不会在基因组上出现重复,而那些短的重复区域则被覆盖在其中,于是借助这种新技术,科学家们成功地把基因组上这剩下的8%的信息基本上都翻译出来了,形成了迄今为止最完整的人类基因组。

我们可以看到,人类基因组计划的完成,是一代测序、二代测序和三代测序共同实现的。但是,我们并不能仅凭出现时间的早晚来评判测序技术的高下,要知道,缺乏其中任何一种测序技术,人类基因组的完全解读就不能完成。

当然,必须指出,即便到如今我们的人类基因组依然不能说是100%完全测序,依然还有一小点点需要补充,但是按照目前进展,可能近几年就能彻底解决这个问题。

未来已来?言之过早

看到这里,建立了到目前为止最为完整的人类基因组,那么是不是大功告成了?其实,这只是万里长征第一步呢。

在2001年人类基因组计划刚完成的时候,业内也是一片欢呼,仿佛未来已来。然而很快,科学家们就发现了一系列问题。

首先,我们当年测序的人类基因组,被称为参考基因组,当然,你也可以理解为“标准版”,但是,具体到每个人,这就不同了,每个人的基因组和参考基因组都不是百分之百相似的,而是会出现一些差别,我们称之为“基因变异”或者“基因突变”

而这些变异也是这个多样化世界形成的根本因素,世界上找不到任何两个一模一样的人,甚至严格意义上来说,哪怕是同卵双胞胎,他们的基因也并非完全一致。更为夸张地说,你身体上的所有细胞都不一定拥有一模一样的基因组。

基因突变

(图片来源:wiki)

造成这种现象的主要原因在于基因突变,而能够引发基因突变的因素有很多,物理因素比如辐射,化学因素比如各种致癌物,生物因素比如病毒诱发变异也存在。

即使没有这些因素,我们的基因机制也会引发变异,所谓的基因复制就是从一变多的过程,并不是百分之百精确的,会随机出现错误,尽管人体有修复机制,但这种修复并不是百分之百精确,最终就导致即使没有诱变因素,基因依然会变异,结果就是同一个人不同时期不同部位的DNA可能都不是完全一样的。

当然,需要指出的是基因变异是个中性的词汇,我们不要闻之色变,很多优势的出现,同样也是因为变异,而每一个人一般都携带百万个单核苷酸多态性(可以通俗理解为变异)。

那么,当我们解读了这些代码之后,能做什么呢?别急,我们下回揭晓。

编辑:孙晨宇

科普中国官方网站: https://www.kepuchina.cn/
关闭