微软GigaTIME登上《Cell》:5美元切片变成免疫图谱
【导读】微软在《Cell》公布了最新成果:GigaTIME能把一张H&E切片翻译成过去稀缺的免疫图谱,并在人群尺度重建TIME。癌症免疫研究的许多旧限制,也因此开始松动。
你很难想象,一张医院里5美元的H&E切片,有一天会被放到《Cell》上,甚至让微软CEO亲自站出来转发。

但就是这样一张5美元的病理图,被AI彻底改变了。
AI把它翻译成了昂贵的、稀缺的、过去根本无法规模化的mIF免疫图像。
当这种翻译被执行在14256名患者身上,形成近30万张虚拟免疫图谱之后,一个从未出现过的「虚拟人群」被点亮了。
这意味着,癌症免疫研究第一次摆脱了样本之痛,有机会去回答那些之前无法回答的问题。
也意味着,医学的尺度正悄悄发生偏移。
5美元切片的逆袭
当外界把癌症免疫研究和「昂贵」、「稀缺」画上等号时,GigaTIME却用最朴素、最廉价的切片打开了一条全新的通道。

传统的multiplex immunofluorescence (mIF),每张切片动辄几千美元,耗时长、样本少 。
就算是顶尖实验室,一年的产出也只能覆盖整体样本的极少部分。这就注定了,传统mIF无法大面积使用。
但医院每天产生的H&E染色切片,每张只要5~10美元。
几十年来,它只被当做「常规诊断工具」,没有人会把它和「高维免疫图谱」联想在一起。
GigaTIME改变了这一点。它通过跨模态学习,把H&E里的形态特征翻译成mIF中的21个蛋白通道,让本来昂贵、稀缺、无法规模化的免疫信息,复制到每一张普通切片上。

A–B展示GigaTIME在结构一致性与信号一致性上均显著优于CycleGAN;C展示虚拟mIF与真实mIF的强相关性(以 DAPI、CK、CD68、CD4为例)
这不是的小把戏,而是「结构性翻译」:细胞核、细胞质、结构纹理里潜藏的信号,重建成免疫空间里的真实表达。
这就是为什么微软CEO会在X上亲自强调:
AI正在让我们以前看不见的免疫信息,变得触手可及。
它向世界证明证明:癌症研究最贵的那部分,可以从最便宜的部分中「翻译」出来。
而当这种翻译被执行成规模时,一个全新的研究世界才开始展开。
分析14256名癌症患者后,打开新世界的大门
GigaTIME把H&E翻译成mIF后,发现了一个前所未有的研究窗口。
过去,受限于成本和样本量,免疫微环境(TIME)往往只能在几十例、最多上百例病例中观察。
而这一次,研究团队把模型应用在14256名癌症患者身上,横跨24种癌症、306个亚型,最终生成了299376张虚拟mIF图像。
这些病例来自Providence的真实世界临床医疗体系,横跨51家医院,上千家诊所。
这使GigaTIME的训练与验证扎根现实的土壤,而不是实验室的无菌环境。

GigaTIME的整体研究框架。展示了14,000+患者规模的真实世界数据,H&E→虚拟mIF的翻译流程,以及三大下游任务(生物标志物关联、患者分层、TCGA 验证)。
积累十年的数据,一次就被赶超。
这份虚拟人群带来的第一个成果,是规模化的生物标志物关联图谱。
研究者在其中识别出1234个统计学显著的蛋白质–生物标志物关联。

跨癌种的TIME免疫光谱图。展示不同癌种在21个蛋白通道上的免疫激活差异,涵盖增殖、免疫检查点、上皮–间质等功能类别。
其中既包括已有文献支持的模式,例如MSI高、TMB高通常伴随TIME相关通道的升高 ;也出现了一些跨癌种的新型关联,例如与KRAS、KMT2D等驱动突变之间的免疫链接 。
更重要的是,这个虚拟人群并非闭门造车。
研究团队把GigaTIME生成的虚拟mIF与TCGA 10200名患者的数据进行了对照 ,得到了r =0.88的跨数据集一致性。

Providence vs TCGA的虚拟mIF一致性
这意味着,无论是人群分布、癌种构成还是组织来源完全不同, GigaTIME的免疫翻译都保持了高度稳健。
微软研究院将这项工作定义为:全球首个基于空间蛋白质组学的population-scaleTIME研究。
过去,由于mIF稀缺,这类分析大多是理论上存在,如今,GigaTIME把事实摆在我们眼前。
免疫能不能预测疾病?虚拟人群给出答案
接下来的工作,就是验证:这些被AI翻译出来的免疫信息,能不能用来判断疾病?能不能用于临床指导?
答案比预期更大胆。
研究团队对近30万张虚拟mIF做了关联分析,发现了 1234项统计学显著的蛋白质–生物标志物关系。

这些关系横跨跨癌种、癌种内部和亚型内三个层级。
其中既有文献验证的模式,例如MSI-H/TMB-H通常伴随 CD138、CD4等免疫相关通道普遍上调;
也出现了过去因样本量不足而无法观察到的新人群特征,例如KRAS、KMT2D等驱动突变与免疫活化之间的全局关联。

虚拟 mIF × 生物标志物的关联矩阵
这是我们第一次在真实人群尺度上看到癌症免疫的因果纹理。
研究团队进一步提出问题:如果把21个虚拟mIF通道组合成一个整体特征,能否用于区分患者的生存风险?
答案是肯定的。

虚拟mIF的生存分层能力。A–C展示虚拟mIF与病理分期的相关性;D–F显示CD3、CD8与GigaTIME signature在pan-cancer、肺癌、脑癌中的生存分层表现;G则给出不同蛋白通道对生存预测的重要性排序。
pan-cancer层面,GigaTIME signature能明显区分生存曲线;
在肺癌和脑癌中,也呈现稳定的分层能力;
虚拟 CD3、虚拟 CD8 的预测效果,与真实CD3/CD8在文献中的表现高度一致。
综合21通道的signature性能更优
AI翻译出来的免疫图谱不仅「像真的」,而且「能像真的一样用」。
免疫微环境真正难的一点,在于它是一个复杂的「空间结构问题」。

虚拟mIF的空间激活图
这类「免疫模式的合取与并集」在过去只能靠假设推测,现在在虚拟人群中可以直接验证。
GigaTIME让免疫微环境的「几何学」第一次能被系统分析。
GigaTIME学到的不只技巧,还有语言本身
真正让人相信它的,从来不是它预测得多么准确,而是「它是怎么学会这些的?」
GigaTIME的可信度,其实在它诞生的那一刻就已经定下来了。
mIF价格高昂,一张几千美元,做研究就像是在烧钱。
H&E则完全相反,5~10美元一张,全球各地都在用它生成、扫描、存档。
GigaTIME,把这两种世界接在了一起。
它从4千万个细胞级别、逐一对应的H&E和mIF中学会了它们之间的语言关系。
更关键的是,当模型离开训练它的那套数据,被放到一个不同医院体系、不同样本来源的人群上时,依旧能行为稳定。

往前走一步,很容易就能发现GigaTIME是站在巨人的肩膀上。
微软此前的GigaPath已经证明,H&E里藏着极其丰富的结构信号。
GigaTIME只是进一步把这种结构翻译成免疫,把只有实验才能看到的东西,放在我们眼前。
也正因如此,前面那些大规模关联、生存分层、空间结构的发现,才不是模型的幻觉。
它们之所以可信,是因为模型从第一天起就站在真实世界的对照数据上,并不断在独立人群上被验证。
你会感觉它不是「猜得对」,而是真的「听得懂」。
从一张H&E切片开始,GigaTIME推开了一扇没人想过的门:
learning the language of patients.
意思是,医学终于有机会,把看得见的东西,延伸成真正能读懂病人的语言。
它不是终点,更像是虚拟患者时代的第一块基石。
当免疫图谱能在几十万人的尺度上重建,未来关于疾病的预测、治疗反应的推演,可能都不止停留在猜测。
如今,GigaTIME已在Foundry Labs与HuggingFace全量开源,这意味着它的优势不再属于少数团队,而将成为整个医学界都能继续构建的基础能力。
新的故事,也许就会从这里开始。
参考资料:
https://x.com/satyanadella/status/1998424249611211263
https://www.microsoft.com/en-us/research/blog/gigatime-scaling-tumor-microenvironment-modeling-using-virtual-population-generated-by-multimodal-ai/
https://www.cell.com/cell/fulltext/S0092-8674(25)01312-1
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定极速推送!
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社