谷歌Nature震撼发文，Gemini教练暴打专家！医学双料冠军，秒出睡眠报告

2025-08-27 发布浏览311次点赞0次收藏0次

【导读】谷歌DeepMind最新Nature王炸，直接把Gemini版大模型PH-LLM调教成了「AI健康私教」，把可穿戴冷冰冰的数据，直接变成睡眠健身建议，结果准确率暴打人类医生。

AI医学的圣杯，可能先被谷歌DeepMind夺下。

最近，谷歌全新健康大语言模型（PH-LLM）正式发布——一款微调Gemini的「个人睡眠和健康」模型。

论文地址：https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

PH-LLM将可穿戴设备中的数据，瞬间转化为可视化的内容。

它就像一个「AI睡眠专家+健身教练」，可以全天候分析监测个人的智能手表数据。

结果发现，PH-LLM在睡眠医学考试中得分（79%）碾压医生（76%），而且在健身认证中直接把人类专家按在地上摩擦（88% vs 71%）。

更牛的是，在人类评估中，PH-LLM生成的健康建议，几乎与专家无差别。而且，仅凭传感器数据，即可预测用户睡眠质量。

大多数可穿戴设备，往往只会给你一堆数据。

遗传学博士Dominic Ng对此点评道，「PH-LLM所做的，正是一位优秀医生会做的事，即将数据综合成『洞察』」。

最新研究已于14日登上Nature，具体看看，谷歌DeepMind如何做到的？

谷歌出手不凡，Gemini版「健康私教」

传统临床诊疗虽能提供宝贵信息，但对睡眠、运动、压力等，生活健康指标评估仅具阶段性。

如今，可穿戴设备就能实现无感连续监测。

不过，这些数据缺乏上下文背景，存储分析算力要求高、解读难度大等因素，并未广泛应用于临床实践。

甚至，这些数据也并未纳入标准「医学问答数据集」，导致通用基础LLM和医学LLM，都难以有效推理给出个性化建议。

为此，谷歌团队合力在Gemini上微调出PH-LLM，用于评估AI在睡眠与健康领域的表现，如下图所示。

可穿戴设备能监测信息远超这两个领域，为什么研究团队仅聚焦于此？

一方面，现有研究已充分验证可穿戴设备，在这些领域监测数据的准确性与适用性。

另一方面，设备使用者参与度高，无需提供临床建议即可给出实用指导方案。

研究中的真实案例：仅凭一名65-70岁男性提供的30天数据，PH-LLM便识别出了规律的睡眠时间表，但平均睡眠时间仅为5小时28分钟（过低）。

为此，它建议道：

更好的睡眠时间是从晚上12:00到早上7:30。你可以通过每隔几天将睡眠时间提前15分钟，逐步达到目标。

基于Gemini Ultra 1.0，PH-LLM采用了两阶段训练。

首先，作者对完整模型进行了微调，专门针对睡眠和健康领域的长篇案例分析回复生成任务。

训练数据包含了，人口统计学文本数据、最长30天的每日指标、聚合指标，以及仅针对健康案例的个体运动日志等。

在完成案例分析微调后，他们又为PH-LLM增加了多模态适配器。

这个适配器是用于，根据至少15天的纵向被动传感器数据（包含每日睡眠与活动指标），来预测睡眠障碍和睡眠损伤的主观报告结果（PROs）

两阶段训练完成后，团队从个人健康教练所需的多元能力维度出发，针对三大任务评估了PH-LLM的表现：

首先，通过多选题测试评估模型掌握的专家级领域知识储备；

其次，通过长案例研究检验模型应用专业知识、解读聚合传感器数据以提供教练建议的能力；

最后，测试模型预测患者主观报告结果（PROs）的能力，使其在生成建议时能整合个体对睡眠质量的自评数据，真正实现个性化健康指导。

AI击败人类专家

测试结果显示，在睡眠医学和健康体能考试，PH-LLM的答题正确率分别达到79%和88%（表1与图1b）。

这一结果，显著超过获得睡眠医学继续教育学分（CME）要求的约70%及格线。

而且，与主流外部模型相比，PH-LLM表现颇具竞争力：睡眠类题目稍逊但体能类题目表现相当。

具体而言，在睡眠医学考试中PH-LLM得分79%，Gemini Ultra 1.0为77%；在体能考试中两者均获88%得分。

受试者工作特征曲线（ROC）与精确率-召回率曲线，均证实模型在两类考试中的优异表现（附图2）。

值得注意的是，尽管针对睡眠与健康任务进行了微调，PH-LLM在PubMedQA29和MedQA30通用医学基准测试中，性能并未下降（附表1）。

值得一提的是，睡眠医学题库包含每道题目的人类考生答题分布等元数据，这允许团队基于题目难度进行分层性能比较。

PH-LLM在所有难度层级均小幅领先Gemini Ultra 1.0，且在难题上的优势更为明显。

这表明，睡眠案例研究的微调确实提升了相关题目的解答能力（表2）。

为量化PH-LLM的表现水平，团队还招募了5位平均从业25年的睡眠医学专家（均持有高级学位）和5位平均从业13.8年的职业运动教练参加同规格考试。

专家组在睡眠医学试题样本（N=204）中的平均正确率为76%，体能考试为71%，PH-LLM在两类题库中均超越人类专家（表1）。

按人类考生答题难度分层分析显示，PH-LLM的表现与人类考生及受邀专家群体相当（表2）。

案例分析，接近专家水平

接下来，研究团队进一步评估了，模型应用专业知识与解读传感器数据的能力。

为此，他们创建了首个睡眠与健康领域的详细个人健康案例数据集（857个案例，含3,271组问答对），由多位相关领域专家共同审定。

该数据集包含持续数周的个体可穿戴传感器数据，以及对应的深度分析与建议（图2a,b）。

在健康管理案例分析中，PH-LLM模型在三个维度（运动处方制定、恢复方案建议、训练准备度评估）上，表现出与人类专家及Gemini Ultra 1.0相当的水平（图2d）。

传感器数据，预测健康报告

此外，为了评估PH-LLM能否推断用户体验以优化健康指导，团队测试了每日传感器数值数据预测睡眠障碍和睡眠损伤PROs的能力。

首先通过计算问卷回答间的相关性分析PRO数据，发现16个问题测量了相关但独立的睡眠维度（图3a）。

随后检查传感器特征是否存在混杂因素，发现不同设备和参与者依从性间的传感器读数分布相似。

结果显示：没有单一特征对所有PROs具有绝对预测优势，预测信号广泛分布于多个传感器（图3b）。

为使PH-LLM能从传感器特征预测PROs，研究人员又训练了一个多层感知机（MLP）适配器，将20项传感器特征的统计量映射至PH-LLM的潜在标记空间（方法部分）。

随后将这些潜在标记作为上下文输入PH-LLM，要求其预测每个二分类结局。

在保留测试集中，团队比较了零样本提示、少样本提示与PH-LLM适配器方法，在受试者工作特征曲线下面积（AUROC）和精确召回曲线下面积（AUPRC）的表现（图3c,d）。

值得注意的是，客观睡眠测量数据对主观睡眠质量指标的预测力通常有限，但配备适配器的PH-LLM在AUROC和AUPRC上均显著优于两种提示方法。

正如Dominic Ng所言，谷歌研究意义并不止于一个「AI战胜医生」的故事。

这恰恰证明了，LLM可以将被动的健康监测，转化为积极的健康管理。

它不仅了解你的身体，还能理解其原因，并给出及时应对方法。

这就是预防医学的未来。

参考资料：

https://www.nature.com/articles/s41591-025-03888-0?utm_source=chatgpt.com

https://x.com/GoogleForHealth/status/1956050991695933619

4 测试大模型性能谷歌算力 AI Go Google 体验

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

谷歌Nature震撼发文，Gemini教练暴打专家！医学双料冠军，秒出睡眠报告

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。