在24项场景中优于人类医生，Google团队开发基于自博弈的诊断对话大模型

2024-01-17 发布浏览353次点赞0次收藏0次

编辑 | 白菜叶

医学的核心在于医患对话，熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。能够进行诊断对话的人工智能（AI）系统可以提高护理的可及性、一致性和质量。然而，学习临床医生的专业知识是一个巨大的挑战。

Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE（Articulate Medical Intelligence Explorer），这是一种基于大型语言模型（LLM）的人工智能系统，针对诊断对话进行了优化。AMIE 使用一种新颖的基于自博弈（self-play）的模拟环境，具有自动反馈机制，可在不同的疾病状况、专业和背景下扩展学习。

「据我们所知，这是第一次针对诊断对话和获取临床病史进行最佳设计的对话式人工智能系统。」 Google Health 的临床研究科学家、论文的合著者 Alan Karthikesalingam 说道。

该研究以「Towards Conversational Diagnostic AI」为题，于 2024 年 1 月 11 日发布在 arXiv 预印平台。

论文链接：https://arxiv.org/abs/2401.05654

很少有人利用 LLM 进行医学研究，探索这些系统是否可以模仿医生获取个人病史并利用其做出诊断的能力。哈佛医学院的内科医生 Adam Rodman说，医学院的学生花了很多时间进行训练来做到这一点。

Google Health 的人工智能研究科学家、论文的合著者 Vivek Natarajan 表示，开发人员面临的一个挑战是缺乏可用作训练数据的现实世界医疗对话。

为了应对这一挑战，研究人员设计了一种让聊天机器人训练自己如何「对话」的方法。

图示：AMIE 研究概述。（来源：论文）

研究人员利用现有的现实世界数据集（例如电子健康记录和转录的医疗对话）对基础 LLM 进行了第一轮微调。为了进一步训练模型，研究人员要求 LLM 扮演患有特定病症的人，以及富有同理心的临床医生，旨在了解该人的病史并设计潜在的诊断。

为此，研究人员设计了一个框架，用于评估具有临床意义的绩效轴，包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。该团队在一项随机、双盲交叉研究中，以客观结构化临床检查（OSCE）的方式与经过验证的患者参与者进行基于文本的咨询，将 AMIE 的表现与初级保健医生（PCP）的表现进行了比较。

图示：随机研究设计概述。（来源：论文）

该研究包括来自加拿大、英国和印度临床提供者的 149 个病例场景、20 个与 AMIE 进行比较的 PCP，以及专科医生和患者参与者的评估。

根据专科医生的说法，AMIE 在 32 个轴中的 28 个轴上表现出了更高的诊断准确性和卓越的性能，根据患者参与者的说法，AMIE 在 26 个轴中的 24 个轴上表现出了更高的诊断准确性和卓越的性能。

通俗讲，AMIE 在 26 项对话质量标准中的 24 项上优于医生，包括礼貌、解释病情和治疗、给人诚实的印象以及表达关心和承诺。

但是，「这绝不意味着语言模型在获取临床病史方面比医生更好。」Karthikesalingam 说。他指出，研究中的初级保健医生可能不习惯通过基于文本的聊天与患者互动，这可能会影响他们的表现。

Karthikesalingam 表示，相比之下，LLM 有一个优势，那就是能够快速撰写冗长且结构精美的答案，使其能够始终如一地体贴而不会感到疲倦。

不过，该工具目前仍处于纯粹的实验阶段。它还没有在患有真正健康问题的人身上进行过测试——只在接受过描绘患有健康问题的人训练的演员身上进行过测试。「我们希望谨慎和谦虚地解释结果。」Karthikesalingam 说。

尽管聊天机器人距离临床护理还很远，但作者认为它最终可能在医疗保健民主化方面发挥作用。Rodman 说，这个工具可能会有所帮助，但它不应该取代病人与医生的互动。「医学不仅仅是收集信息，它还关乎医生与患者的关系。」他说。

该团队在论文里也注明了该工具的局限性，应谨慎使用。临床医生仅限于不熟悉的同步文本聊天，这允许大规模的 LLM 与患者互动，但不能代表通常的临床实践。虽然在将 AMIE 转化为现实世界环境之前还需要进一步研究，但结果代表了对话式诊断 AI 的一个里程碑。

Karthikesalingam 表示，这项研究的下一步是进行更详细的研究，从而评估潜在的偏见，并确保该系统对不同人群是公平的。Google 团队也在研究对临床医疗问题系统测试的道德要求。

新加坡国立大学（National University of Singapore）医学院的临床人工智能科学家 Daniel Ting 表示同意该观点，并表示，探究系统中的偏见对于确保算法不会惩罚那些在训练数据集中没有得到很好体现的种族群体至关重要。

Ting 说，聊天机器人用户的隐私也是需要考虑的一个重要方面。「对于目前许多商业大型语言模型平台，我们仍然不确定数据存储在哪里，以及它们如何分析数据。」他说。

在24项场景中优于人类医生，Google团队开发基于自博弈的诊断对话大模型

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。