En

人工智能促进理解细胞工作原理 辅助治愈疾病

2023-12-21 人工智能

作为最小的生命单位,细胞是理解疾病的关键。然而,关于它们的许多方面仍然未知。例如,我们不知道数十亿的生物分子,如DNA、蛋白质和脂质,是如何聚集、组合在一起成为一个细胞的。我们也不知道体内的多种细胞类型是如何相互作用的。对于细胞、组织和器官如何产生疾病以及它们如何保持健康,我们的理解有限。

然而,如果研究人员能够获取并利用人工智能强大的新技术,那么可以辅助回答这些问题,并将相应知识应用于人类健康和福祉的改进。

设想,如果可以使用人工智能模型来表示每一种细胞状态和细胞类型,那么这样的“虚拟细胞”可以模拟我们体内任何细胞类型的外观和已知特性——从视网膜中检测光线的杆状细胞和锥状细胞,到维持我们心脏跳动的心肌细胞。科学家可以使用这样的模拟器来预测细胞如何对特定条件和刺激作出反应:免疫细胞如何应对感染,当一个孩子出生时患上罕见的疾病,细胞层面会发生什么,甚至患者体内如何对新药物作出反应。科学发现、患者诊断和治疗决策都将变得更快、更安全、更高效。

在Chan Zuckerberg的倡议中,研究人员正在助力生成科学数据并建立计算基础设施,以使设想成为现实,并为科学家提供他们需要的工具,以便利用人工智能的新进展帮助终结疾病。

数据赋能

人工智能的飞快进步结合大量科学数据,使得模型已经能成功预测几乎所有已知蛋白质的结构。DeepMind使用50年来精心收集的数据来训练AlphaFold,并在仅仅五年内解开了蛋白质结构之谜。另一个人工智能系统ESM是由Meta开发的蛋白质语言模型,它的训练不是基于词汇,而是基于超过6000万蛋白质序列。它具有多种应用,如预测蛋白质的结构以及从单一序列中预测突变的影响等。

虚拟细胞建模系统也需要大量的数据支持。自2016年以来,Chan Zuckerberg倡议在全球范围内支持研究人员生成和注释有关细胞及其组分的数据,并构建工具来整合这些大型数据集,使其广泛可用,供研究人员学习和建立模型。

一个全球性的研究人员联盟一直在构建人体内每种细胞类型的参考图,旧金山生物中心正在创建全身细胞图谱。这些数据集共同构成了开源人类细胞图谱的初稿,该图谱将记录人体内不同发育阶段的细胞类型。旧金山生物中心和Chan Zuckerberg成像研究所正在合作开发OpenCell项目,该项目用于标记细胞内不同蛋白质的位置。

研究人员还在使用Geneformer和scGPT等机器学习模型来探索大量相关基因和细胞的数据,包括从CELL×GENE生成的数据,这是Chan Zuckerberg倡议的科学和技术团队创建的开源软件平台,旨在加速单细胞研究。与之类似的是,利用新的冷冻电子断层扫描的原型数据门户,成像研究所和科学技术团队正在与机器学习专家合作,旨在开发显微镜数据的自动标注,从而将数据处理时间从数月甚至数年缩短到仅仅数周之内。

同时,数据需要尽可能具有代表性,以确保科学突破惠及所有人。这包括将儿童数据纳入人类细胞图谱,填补我们对儿童时期疾病细胞机制的知识空白。通过祖先网络资助计划,研究人员可根据黑人、拉丁裔、东南亚人和土著人等来自研究不足的种族、民族和祖先背景的组织样本,生成有关细胞的参考数据。

目前,已有研究团队使用上述数据集取得新发现。其中一项发现是“与囊性纤维化相关的破损基因是由一种从未遇到的细胞类型表达的”,另一项发现是“识别出最易受SARS-CoV-2感染的呼吸道细胞”。还有一些研究人员正在利用这些数据,目的是发现新的剪接基因的选择,以潜在地纠正特定细胞中导致疾病的突变。

这些发现是开发疾病治疗方法的第一步——作者相信,人工智能可以显著加快研究人员未来的发现速度。

计算赋能

为了创建虚拟细胞,作者团队正在建立一个高性能计算集群,配备了1000多个H100GPU,这将使团队能够开发新的人工智能模型,这些模型经过有关细胞和生物分子的各种大型数据集的训练,包括科学研究机构生成的数据。随着时间的推移,这将使科学家能够模拟健康和疾病状态下的每种细胞类型,并查询这些模拟,从而了解生物学中难以捉摸的现象是如何发挥作用的,包括细胞的生成、身体内的相互作用以及疾病性变化产生的影响。

该计算集群将成为全球非营利科学研究中规模最大的人工智能集群之一。对于那些准备以新的方式使用数据集,但因无法承受最新人工智能技术的高昂成本而受阻的学术团队来说,这将是一个重要资源——这些数字细胞模型及其相关数据和应用将向全球研究人员开放。

人才赋能

这些数据集的生成、计算集群的建设以及将人工智能应用于生物学,正是多学科协作性质的典范。生物中心网络汇集了来自不同学科和机构的专家,共同应对一些科学上最大和最有风险的挑战,这些挑战在传统的学术环境中无法应对。通过像CELL×GENE这样的项目,世界各地的研究人员共同构建了一个单细胞数据资源库,这证明了一个为开放科学提供共享资源的项目,如何能够随着更多合作者贡献资源和智慧而不断发展。如果领先的科学家和技术专家共同合作,充分利用人工智能所创造的机会,“帮助科学界预防、管理或治愈所有的疾病”的目标将得到显著推进。从揭示细胞的奥秘开始,这可能有助于终结我们所知的许多疾病。

来源:人民邮电报