基因组所 于军 研究员
12月21日出版的美国《科学》杂志提出2013年的6个值得关注的科学领域, 包括单细胞测序、“普朗克”探测微波背景辐射、人类连接组计划、探索南极冰下世界、癌症免疫疗法和基础植物研究。六个领域中的五个都与生命科学有关。
其中排在第一位,带有最新理念的,就是“测定每一个细胞的序列”。从表面上看,测序好像仅仅是测定DNA的序列,也就是测定每一个细胞所携带的遗传物质—-DNA的序列。但是其实不然,背后有更深刻的意义。
首先,人体的每个细胞(单倍体细胞只有性决定细胞:精子和卵子)通常带有两套染色体(每条染色体由一个DNA分子和众多蛋白质分子辅助组成),而且每个个体所拥有的千兆个细胞都来自同一个受精卵,理论上来讲,这些细胞的DNA序列应该百分之百是一样的。所不同的只是经过每一代人的DNA复制,基因组(所有染色体)的总体序列会有几十个变化,称为每一代之间的基因组突变率。尽管这个变化相对每一代人来说是很少的,但是日积月累,加之世界人群之巨大,总体的变化数量则是惊人的!在这些变化中,又有人类个体生老病死等因素的不断加入,基因和它的组分—-DNA序列也在世代的变演中或被保留、或被抛弃、甚至被夸大、抑或仅仅是随波逐流。当然,这些存在于人群中的DNA序列变化也会与每个人引为自豪的优势有关,也会与每个人不容乐观的缺陷有关,更会与我们的体能、长相、智慧、寿命、乃至疾病有关。这就是我们要测定更多人基因组序列的目的之一。我们要将基因组的这些变化与我们的“表型”(可见和可测定的标征)关联起来,找到DNA序列与表型的因果关系,即所谓的全基因组关联研究。
其次,既然基因组序列的变化与细胞的种类无关,那我们还在乎单个细胞吗?有一个最直接的原因,那就是各种恶性肿瘤细胞往往有自己特殊的变异。这些变异的发生有两个基本的途径:其一是固有的但是并不马上致瘤,但潜力可畏;其二是肿瘤细胞新产生的,既可以定性,也可以定量,更可以用来指导诊断、预后和治疗。还有些肿瘤相关的变异可以产生新(对,在正常状态下没有)的蛋白质,这些蛋白质则可以作为药靶来对待。另外,肿瘤细胞的特征之一是无限增殖,这里产生的变异之多,相关性之复杂都非常吸引人们去深入研究。可见,单个细胞水平的研究会为肿瘤研究提供不少的肿瘤发生和不断变演的线索。
第三,如果我们能测定每一个正常细胞的DNA序列,我们还会得到哪些有用的信息呢?答案是:很多。DNA测序归根结底是一门技术,一门非常有用的技术。尽管它的原理发明是上个世纪70年代的事情,但是“人类基因组计划”的启动赋予它新的动力和生命:我们要在这门技术的发展上投入很多很多的钱,就数量而言,可以说是空前绝后的:30亿美元。结果是,这门技术不仅帮我们测定了一个人的基因组(也就是所谓“人类基因组计划”)、数百个人的基因组(也就是所谓的“基因组单倍体型图计划”;该计划粗略地测了几百个人的基因组)、上千个人的基因组(即“1000人基因组计划),乃至今天所谈的:每个人的基因组和每个细胞的基因组。这个技术的发展之快,应用之深广,绝对是空前的。它对于科学发展的意义绝对超过航空母舰对现代战争的意义。
正是这样一门技术支持了我们鉴别单细胞和单细胞功能差异的欲望。众所周知,细胞是生命有机体的基本单元。人体就有近200种不同的细胞存在,有的在分化,有的在生长,有的在复制,有的在运动,有的在支撑机体,有的在传导信号等等。问题是:既然每个人的每个细胞都有相同的基因组序列(或DNA分子),这些细胞在DNA序列上的不同体现在哪里呢?回答之一是:在RNA分子里面。RNA和DNA一样是细胞的重要“建筑材料”之一。它们的功能也很复杂,有的相当于建筑材料,与蛋白质一起构成不同的功能结构;有的则编码蛋白质,“指导”蛋白质的合成;有的则是操作分子,参与很多细胞功能的调控,RNA可以说是“无孔不入”。也正是这些无孔不入的分子,才是细胞间非遗传性差异的“始作俑者”。换句话说,细胞间的不同很大一部分是由它们的RNA内涵所决定。这样的话,用测定DNA的机器(通过将RNA“反转录”为DNA)来测定每细胞里的RNA组成正是单细胞测序的关键所在。每一个细胞里都有数千万RNA分子。仅用来编码蛋白质的“信使RNA”(仅占总量1%)分子就有逾十万种,近百万之多。可想而知,强有力的测序技术此时此刻就更有了用武之地!
DNA测序技术在单细胞水平的应用还不仅仅是如此。这里可以举几个实际的例子。一个是通过测定DNA序列来来找到重要调控蛋白质与DNA 作用的部位(其实也是固定的序列),这个技术称为ChIP-Seq(免疫沉淀-测序偶联)技术,可以用来建立基因调控网络(当然也包括致病基因在内了)。还有一个是通过测定被蛋白质保护的部分DNA来确定染色体在细胞核内的三维构像和空间分布。目前的研究结果表明不仅仅是染色体的稳定性,而且它的构像和时空分布会与细胞的分化、凋亡、癌变等有关。另外,我们还可以细究蛋白质复合体(如核小体)的排列(包括排列的致密度和位置)来估计基因簇的被调控状态:协同、相左还是独立?此类例子可以更多,甚至有更长的解释。总之,这些技术都可以在单细胞水平来观察变化,疾病的一部分就体现在细胞水平基因调控的不正常。比如,胰岛细胞(分泌胰岛素)调控得不正常就导致糖尿病。又如,衰老个体的细胞和年轻个体的细胞在遗传总体上和基因调控上有何不同?我们目前还没有直接的手段来用实验和数据来回答这个问题,或许在单个细胞水平的研究上这些问题都会迎刃而解。
就技术而言,单细胞测序的关键和特色至少有在四个方面体现出来。第一,我们必须要建立各种单细胞的观察、观测和分离技术。流式细胞仪是目前高通量分离细胞的工具之一,但是要做到分离和研究单个细胞,我们必须要有显微处理的能力和相关仪器。微纳加工技术和微流控技术的掌握和应用应该是不可少的。第二,我们要开发基于单细胞的DNA和RNA分离和分析技术。尽管DNA测序可以用扩增后的DNA来测序,但是无扩增技术会更好地体现细胞的原始状态。第三,我们要建立单细胞基因表达和调控的数学计算模型。笔者在十几年前曾与提出单细胞测序概念的胡德(Leroy Hood)教授切磋对“竭泽而渔”和“掷网而渔”之间的不同和逻辑关系的理解,笔者认为也许只有在“自然生态”下我们才能真正理解不同“鱼儿”(基因)间的生存(功能)和依赖(相互作用)。因为细胞间的不同是绝对的,因为不仅不同的细胞不可能有相同的基因在表达谱(基因表达的全部),而且相同细胞的基因表达谱也会不同(视分辨率的不同而定)。因为细胞内基因表达量的均值时小于一的。也就是说,细胞里有很多基因的表达量非常低,低到几十、乃至几百个细胞才有这个基因的一个转录本(拷贝)。可见,单细胞测序不是没有挑战的,不仅仅是技术,而且包括理论。第四,达到在单细胞水平研究生命现象和基因的关系,我们极有必要将DNA测序技术推向单分子水平。这样我们就舍去了DNA的扩增。目前的单分子DNA测序仪还不成熟,新的竞争还刚刚开始。单分子测序得优势在于我们不仅可以不用扩增地看到基因变异和表达的全貌,而且可以侦查到刚刚(实时)发生的微妙变化。更可以看到每个DNA分子和RNA分子上的化学修饰。因为我们知道DNA至少有四种化学修饰的状态,RNA 则含有少数(一百余种)化学修饰的核苷酸。由于不能容易地测定这些化学修饰核苷酸的存在和动态变化,我们无从知道它们在DNA和RNA分子上的准确功能。好在目前的测序技术允许我们粗略地知道哪些位点(序列的位置)可以有修饰的核苷酸存在,而且它们的动态变化被称为是表观遗传学研究的内容,有些甚至与癌变有关。&单细胞DNA测序的本质是基因组学技术在细胞生物学上的应用,这不仅充分体现了学科的交叉和互动,也指出了不可忽视基因组学技术的高速发展。就DNA测序技术而言,它的数据产生速度已经超过了计算机的计算能力发展速度(摩尔定律)。很可惜的是,我国目前还没有真正重视这一技术的发展。目前的研制焦点在第三代测序技术,其特点为:单分子、读长长、低成本。目前广泛使用的是第二代设备,足以帮助我们测定各类基因组的序列,并且启动前期单细胞水平的研究。&在科学上绝无一劳永逸的事件,只有一砖一瓦,只有起重与降落的周而复始,不知不觉中“科学的大厦”就拔地而起。在随之耸入云端时,我们看到总是更远和更广,当然也就更美。到时候,我们会问自己:我们中国科学家所添加的那一块砖、一块瓦在哪里呢?新的一年,永远鼓励我们要有新的起点,我们2013年的新起点至少可以是第三代DNA测序技术的研发,因为单细胞测序终极目标的实现需要新一代测序仪的支持:测定每个(正常的和疾病的)细胞里每一个DNA和RNA分子的精准序列。