2025-06-02 03:17来源:本站
研究人类细胞是件痛苦的事。数以万亿计的细胞存在于人体内,形成一个庞大而复杂的网络,控制着每一种疾病和代谢过程。这个回路中的每个细胞本身都是基因、蛋白质和其他极其微小的生物机制之间同样密集而复杂的相互作用的产物。
我们对这个世界的理解是模糊的,不断变化的。就在几年前,科学家们还认为只有几百种不同的细胞类型,但新技术已经揭示了数千种(而这仅仅是个开始)。在这个微观领域进行实验可能是一种猜测;即使成功也常常令人困惑。例如,奥西姆类药物被认为对肠道起作用,但可能最终被证明是对大脑起作用的药物,而伟哥最初是为了治疗心血管疾病而开发的。
加速细胞研究可以为人类带来巨大的成果——新药和疫苗,癌症治疗,甚至是对塑造我们生活的基本过程的更深入的理解。这已经开始发生了。科学家们现在正在设计计算机程序,可能解锁模拟人类细胞的能力,使研究人员能够预测药物、突变、病毒或任何其他身体变化的影响,从而使物理实验更有针对性,更有可能成功。卡耐基梅隆大学(Carnegie Mellon University)计算机科学家、阿联酋穆罕默德·本·扎耶德人工智能大学(Mohamed bin Zayed University of Artificial Intelligence)校长埃里克·邢(Eric Xing)告诉我,受ChatGPT等大型语言模型的启发,他们希望生成式人工智能能够“解码生物学语言,然后说生物学语言”。
就像聊天机器人可以从大量的书面语言中辨别风格甚至含义,然后用它来构建类似人类的散文一样,理论上,人工智能可以通过大量的生物数据进行训练,以提取有关细胞甚至整个生物体的关键信息。这将使研究人员能够创建体内许多细胞的虚拟模型,并对它们采取行动。“这是生物学的圣杯,”斯坦福大学的细胞生物学家艾玛·伦德伯格(Emma Lundberg)告诉我。“人们已经梦想了很多年了。”
这些浮夸其谈的说法——关于生成式人工智能这样一种模棱两可、充满争议的技术——听起来可能与科技高管们的自私预言非常相似:OpenAI的山姆·奥特曼、b谷歌DeepMind的德米斯·哈萨比斯和Anthropic的达里奥·阿莫代伊都宣称,他们的人工智能产品将很快给医学带来革命性的变化。
然而,如果生成式人工智能确实实现了这些愿景,那么结果可能看起来就像Xing、Lundberg和其他人一直在努力的虚拟细胞。(上个月,他们在《细胞》杂志上发表了一篇关于这个问题的观点。Xing将这一想法推进了一步,他与人合著了几篇论文,探讨了将这些虚拟细胞组合成一个“人工智能驱动的数字有机体”的可能性——一个完整生命的模拟。即使在这些早期阶段——科学家们告诉我,这种方法,如果被证明是可行的,可能需要10年或100年才能完全实现——这表明,这项技术的最终好处可能不是来自聊天机器人,而是来自更雄心勃勃的东西。
创建虚拟单元的努力并非始于大型语言模型的出现。最早的现代尝试是在20世纪90年代,涉及到编写方程和代码来描述每一个分子和相互作用。这种方法取得了一些成功,第一个细菌物种的全细胞模型最终于2012年发表。但它并不适用于更复杂的人类细胞——科学家们缺乏足够深入的理解来想象或写出所有必要的方程式,Lundberg说。
问题不在于没有相关信息。在过去的20年里,新技术已经产生了大量与人类细胞有关的基因序列和显微镜数据。问题是语料库是如此庞大和复杂,没有人可能完全理解它。但生成式人工智能(generative AI)可能会做到这一点,它的工作原理是用最少的人类指令从大量数据中提取模式。魏茨曼科学研究所(Weizmann Institute of Science)的计算生物学家、邢星的合作者埃兰·西格尔(Eran Segal)告诉我,人工智能在生物学领域“正处于一个临界点”。“所有的星星都排成一行,我们有所有不同的组成部分:数据,计算,建模。”
科学家们已经开始在越来越多的学科中使用生成式人工智能。例如,通过分析多年的气象记录或量子物理测量,人工智能模型可能会可靠地预测大风暴的路径或亚原子粒子的行为,即使科学家不能说为什么预测是准确的。解释的能力正在被预测的能力所取代,人类的发现被算法的信念所取代。这可能看起来违反直觉(如果科学家无法解释某件事,他们真的理解吗?),甚至令人恐惧(如果一个被信任用来预测洪水的黑盒算法错过了一次呢?)但到目前为止,这种方法已经产生了显著的效果。
卡内基梅隆大学(Carnegie Mellon University)计算生物学家、赛诺菲(Sanofi)研发和计算科学主管齐夫·巴-约瑟夫(Ziv Bar-Joseph)告诉我:“这个领域的重大转折点是在六年前。”2018年,在生成人工智能热潮之前,谷歌DeepMind发布了AlphaFold,这是一种人工智能算法,从功能上“解决”了分子生物学中一个长期存在的问题:如何从构成蛋白质的氨基酸列表中识别蛋白质的三维结构。过去,对一种蛋白质进行这样的实验需要花费数年的时间,但在2022年,也就是AlphaFold首次发布四年后,AlphaFold预测了其中2亿种蛋白质的结构,几乎是科学上已知的所有蛋白质。这个项目已经在推进药物发现和基础生物学研究,它的创造者在去年秋天获得了诺贝尔奖。
这个项目的成功启发了研究人员设计出所谓的基础模型,用于生物学的其他组成部分,如DNA和RNA。受聊天机器人如何预测句子中的下一个单词的启发,这些基础模型中的许多都被训练来预测生物序列中的下一个单词,例如组成DNA链的下一组as、Ts、Gs和Cs,或者蛋白质中的下一个氨基酸。然而,生成式人工智能的价值超出了简单的预测。当它们分析文本时,聊天机器人根据单词之间的关系开发语言的抽象数学地图。他们在这些地图上分配单词和句子的坐标,这被称为“嵌入”:在一个著名的例子中,女王和国王之间的嵌入距离与女人和男人之间的距离相同,这表明该程序在内部形成了某种性别角色和皇室的概念。数学、逻辑推理和说服的基本能力(如果有缺陷的话)似乎都是从“预测”这个词衍生出来的。
许多人工智能研究人员认为,这些嵌入所反映的基本理解使聊天机器人能够有效地预测句子中的单词。同样的想法也可以用于生物基础模型。例如,为了准确预测核苷酸或氨基酸序列,算法可能需要开发内部的统计近似,以了解这些核苷酸或氨基酸如何相互作用,甚至它们如何在细胞或生物体中起作用。
尽管这些生物嵌入——本质上是一长串数字——对人类本身毫无意义,但这些数字可以输入到其他更简单的算法中,从中提取潜在的“意义”。例如,从一个旨在理解DNA结构的模型中嵌入的信息,可以被输入到另一个预测DNA功能、细胞类型或基因突变影响的程序中。而不是为每一个DNA或蛋白质相关的任务都有一个单独的程序,一个基础模型可以一次解决许多问题,在过去的两年里,已经发表了几个这样的程序。
以scGPT为例。这个程序的设计目的是预测细胞中的RNA片段,但它已经成功地预测了细胞类型、基因改变的影响等等。“事实证明,通过预测下一个基因标记,scGPT能够真正理解什么是细胞的基本概念,”该程序的创建者之一、多伦多大学(University of Toronto)的生物学家王波(Bo Wang)告诉我。去年发布的最新版本AlphaFold展示了更为通用的能力——它可以预测除蛋白质以外的生物分子的结构以及它们如何相互作用。理想情况下,这项技术将通过系统地探索假设,使实验更有效率和更有针对性,使科学家能够只对最有希望或最能引起好奇心的实验进行物理测试。Wang是《细胞视角》的合著者,他希望为细胞生物学建立更通用的基础模型。
生物学的语言,如果存在的话,要比任何人类的语言复杂得多。一个细胞的所有组成部分和各层都是相互影响的,科学家们希望将不同的基础模型组合起来,创造出比各部分加起来更大的东西——就像把发动机、船体、起落架和其他部件组合成一架飞机一样。陈-扎克伯格倡议(Chan Zuckerberg Initiative, CZI)的科学主管、虚拟细胞观点的主要作者斯蒂芬·奎克(Stephen Quake)告诉我:“最终,所有这些都将汇聚成一个大模型。”czi是一家专注于科学进步的慈善组织,由普莉希拉·陈(Priscilla Chan)和她的丈夫马克·扎克伯格(Mark zuckerberg)共同创立,在最近的许多努力中都发挥了核心作用;今年3月,该组织举办了一场以细胞生物学中的人工智能为主题的研讨会,并在《细胞》杂志上发表了这一观点。上个月,该组织宣布了一套新的资源,专门用于虚拟细胞研究,其中包括几个专注于细胞生物学的人工智能模型。)
换句话说,这个想法是为DNA、RNA、基因表达、蛋白质相互作用、细胞组织等设计的算法,如果以正确的方式组合在一起,可能构成一个虚拟细胞。奎克说:“我们现在还不清楚如何到达那里,但我相信会的。”但并不是每个人都有这样的热情。
在不同的背景下,生成式人工智能有一个持续存在的问题:研究人员和爱好者看到了很多可能在实践中并不总能实现的潜力。奎克说,这种受法学硕士启发的预测基因、氨基酸或其他类似生物元素序列的方法,就像人类细胞和身体是句子和文库一样,还处于“非常早期的阶段”。Xing将他的和类似的虚拟细胞研究比作“GPT-1”时刻,引用了一个最终导致ChatGPT的早期概念验证程序。
尽管使用深度学习算法来分析大量数据是有希望的,但对越来越多的通用解决方案的追求,让一些与我交谈过的研究人员感到善意,但不切实际。例如,约翰霍普金斯大学的生物医学工程师Steven Salzberg告诉我,邢的人工智能驱动的数字生物的基础模型方法表明“对人工智能方法的信心有点太大了”。他怀疑这种通才程序是否会比AlphaFold等定制的人工智能模型更有用,后者是为具体的、定义明确的生物问题(如蛋白质折叠)量身定制的。萨尔茨堡并不认为预测基因序列是一个明显有用的生物学目标。换句话说,也许没有统一的生物学语言,在这种情况下,没有嵌入可以捕获每一个相关的生物信息。
也许,比AlphaFold的方法更重要的是,它可靠而有力地击败了其他最先进的蛋白质折叠算法。但是现在,“陪审团对这些基于细胞的模型仍然没有定论,”CMU生物学家Bar-Joseph说。研究人员必须证明他们的模拟效果有多好。“实验是真理的最终仲裁者,”奎克告诉我——如果一个基础模型预测了蛋白质的形状、基因表达的程度或突变的影响,但实际实验产生的结果令人困惑,那么这个模型就需要重新设计。
即使有了有效的基础模型,从单个程序到将它们组合成完整的细胞也是一个巨大的飞跃。科学家们还没有找到所有必要的模型,更不用说如何组装它们了。“我还没有看到一个很好的应用程序将所有这些不同的模型结合在一起,”Bar-Joseph说,尽管他很乐观。尽管研究人员一开始有很多数据,但他们还需要收集更多的数据。“关键的挑战仍然是数据,”王说。例如,当今许多主要的细胞数据集没有捕捉到随时间的变化,这是每个生物过程的一部分,可能不适用于特定的科学问题,比如预测一种新药对一种罕见疾病的影响。目前,该领域还不完全确定下一步该收集哪些数据。“我们有序列数据;我们有图像数据,”伦德伯格说。“但我们真的知道要生成哪些数据才能到达虚拟单元吗?”我真的不这么认为。”
在短期内,前进的道路可能不是抽象地“理解”DNA或细胞的基础模型,而是为特定查询量身定制的程序。正如人类没有一种语言一样,生物学可能也没有一种统一的语言。“不仅仅是一个通用系统,第一步将是开发大量解决特定问题的人工智能系统,”哥伦比亚大学(Columbia)的计算生物学家、纽约陈·扎克伯格生物中心(Chan Zuckerberg Biohub New York)的总裁安德里亚·卡利法诺(Andrea Califano)告诉我,他也是《细胞》观点的另一位合著者。即使存在这样一种生物学语言,当更简单、更有针对性的项目能更迅速地推进研究和改善患者生活时,瞄准如此普遍的东西也会非常困难,以至于浪费资源。
无论如何,科学家们正在尝试。无论是对整个生物体、单个细胞还是细胞内的单个过程进行建模,在寻求将人工智能革命引入细胞生物学的过程中,每个层次的雄心壮志都来自同一个希望:让虚拟模拟而不是物理实验引领潮流。实验可能永远是真理的仲裁者,但计算机程序将决定进行哪些实验,并告知如何设置实验。在某种程度上,人类可能不再像验证算法那样有发现——建造生物实验室来证实硅的预言。