在《基因王国之一》中我们正式为大家介绍了基因,相信很多人也意识到,原来科学家眼里的基因和我们普通人日常说的基因其实不大一样,而且在不同语境下,基因可能也有不一样的含义。
尽管目前基因有很多定义和理解,但我们这里尽可能采用在学术界相对通用的认知,基因就是传统定义的可以翻译成多肽之类的标准片段,而基因组则是整个DNA上的遗传序列。
你肯定会好奇一个问题,人体到底有多少基因呢?今天,我可以大体告诉你一个数字,大概是两万到两万五千个基因。
不过,这个数字可不是那么容易得出的。为了得到这个数字,人类发起了一场全世界的大合作,也就是和曼哈顿计划、阿波罗计划并列的二十世纪三大工程之一——人类基因组计划。
人类基因组计划的图标
(图片来源:wiki)
面对巨大挑战,全人类并肩作战
在桑格等人开发出DNA测序技术之后,人们开始大量使用这种技术来对基因序列进行检测。不过,这个检测的速度是很慢的。
首先,如何大量获取DNA就是一个难题,比如我们一个正常细胞只有一套DNA,这个含量是p克(皮克,万亿分之一克,也就是10^-12克)级别的。这是什么概念呢?不考虑人体的肠道微生物和食物里的DNA,我们一个人正常情况下全身所有的DNA加起来也就是几十克,而进行测序,必须有大量的DNA,所以往往需要收集很多细胞。
这里多亏了一位叫做穆利斯的科学家,他创造性地建立了一种可以在体外(也就是实验室里)直接以原有的DNA为模板来大量扩增DNA的办法。这种办法只需要一小部分DNA作为模板,然后加上聚合酶、引物(大家可以理解为引导的DNA,分别位于DNA的两侧,一般很短)以及ATGC碱基混合物,接下来就可以在仪器上快速地把DNA以指数的速度复制出来。
这套技术有一个大家更熟悉的名字,叫聚合酶链式反应,也就是PCR。
PCR流程
(图片来源:wiki)
不过,难题还没解决。要知道,PCR技术一次性的扩增的长度有限,往往是数百个碱基,而桑格开发的第一代基因测序技术,也一次性只能读取几百个碱基序列,在当时,成本大概是几十美元左右。
大家可以算一下,如果每次只能检测几百个,要想研究明白人类基因组的30亿碱基对,耗时估计需要几十年,成本更是几十亿才可能完成全部的序列检测。
这在当时,无论是哪个实验室或者哪个组织,都是无法完成的巨大挑战。这种情况下,只能由国际合作来共克困难了。
于是,中、美、英、法、日、德六个国家一起发起了人类基因组计划,这个计划预计耗时十多年、花费30亿美元来完成对人类基因组的总体测序。我国是最晚加入这个计划的,承担了人类基因组计划的1%。
花开两朵,各表一枝
在人类基因组计划进行的同时,新技术也在不断诞生。科学界从不乏敢于创新者,以文特尔为代表的另一群科学家,决定放弃人类基因组计划采取的办法,他们采用了一种创新的技术,那就是鸟枪法。这个名称其实很通俗,意思就是“拿着枪对着一群鸟开枪”。
两种方法的背后,代表着不同的测序理念。
我们把人类基因组比作一条由ATGC组成的长长线条,第一代测序的办法就是把人类基因组分成一段一段的,大家各自完成每一段基因组的序列读取,这也是人类基因组计划采用的主要策略。
而文特尔则认为,压根没必要这么做!干脆把人类基因组完全打碎成更小的片段,直接测每一段的序列,最后通过强大的计算办法来将其组合起来,举个极其简单的例子,如果有三段结果,ATGC,TGCG,CGTA,那么根据数学计算,可以将这三段组合成ATGCGTA这样的更长序列,当然,实际过程要远比这个复杂。
鸟枪法测序示意图
(图片来源:nature)
于是,在2001年,两个团队几乎同时完成了人类基因组的组装,正式奠定了人类基因组的基本信息。
孰优孰劣?可没这么简单!
这里,我们需要指出几个问题。
首先,这两种技术并没有绝对的优劣之分,虽然现在学术界往往把桑格的技术称为一代测序技术,把文特尔他们采用的技术称为二代测序技术的雏形,因为这种策略将在二代测序中大显身手。但是两种技术实际上各有千秋,一代测序技术尽管慢,但是准确度非常高,被称为测序金标准。而文特尔的技术速度快、成本低,但是准确度要低一些,并且后来的二代测序技术中既有基因组碎片化的过程,更有高通量桥式边合成边测序这种关键技术。
其次,当时并不是严格意义上的各自独立,在人类基因组计划进行中,科学家们会把阶段性成果发布出来共享,彼此之间技术也在互相交融发展。
最后,这次大规模的合作,其实也是两种测序技术的互相印证过程,也为二代测序的崛起奠定了基础。
在完成了人类基因组计划之后,生命科学迅速进入了新的时代,借助着新技术,人类很快实现了对许多生物的测序,小鼠、大鼠、猕猴、水稻、小麦等等,至今,已经有上万种生物实现了基因组测序,这些资源,极大地方便了科学家们对于生命医学的研究。
不过,基因组是完美版本吗?为什么还有不断进行的基因组研究呢?稍微剧透一下,在下回中,我们将会来聊一聊基因组的研究。
编辑:孙晨宇