91.1% 准确率，性能远超 GPT-4 系列模型，谷歌推出多模态医学大模型 Med-Gemini

2024-05-07 发布浏览758次点赞0次收藏0次

各种复杂的医疗应用给人工智能带来了巨大挑战：需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力，为 AI 在医学领域应用提供了可能性。

基于 Gemini 的核心优势，谷歌的研究人员推出了 Med-Gemini，这是一个功能强大的多模态模型系列，专门用于医学，能够无缝使用网络搜索，并且可以使用自定义编码器有效地针对新颖的模态进行定制。

研究人员用 14 项医疗基准评估 Med-Gemini，在其中 10 项上建立了新的最先进（SOTA）性能，在每个可以进行直接比较的基准测试中，并且远远超过 GPT-4 系列模型。

在 MedQA (USMLE) 基准上，性能最佳的 Med-Gemini 模型使用新颖的不确定性引导搜索策略，实现了 91.1% 准确率的 SOTA 性能。

在包括 NEJM Image Challenges 和 MMMU（健康与医学）在内的 7 个多模态基准测试中，Med-Gemini 比 GPT-4V 提高了 44.5% 的平均相对优势。同时，Med-Gemini 的长上下文能力，超越了之前仅使用上下文学习的定制方法。

该研究以「Capabilities of Gemini Models in Medicine」为题，于 2024 年 4 月 29 日发布在 arXiv 预印平台。

医学领域的人工智能应用面临复杂挑战，包括需要精准的临床推理，在不断更新的医学知识中进行有效学习，以及处理包含文本、图像、视频等多种模态的医疗数据。

电子病历系统中往往存在的词汇不一致性、异构数据结构、上下文依赖的语义理解难题，以及医疗记录中多义性缩写的潜在误解，都是当前AI系统必须克服的具体问题。

此外，AI 系统的安全性和误差，特别是在处理罕见或细致的医疗状况时，也是重要的考量点。因此，开发能够综合多源信息、具备长期上下文理解与多模态分析能力的 AI 模型，对于提升医疗决策支持和患者护理至关重要。

谷歌的研究人员提出了一种名为 Med-Gemini 的新型医学专用多模态模型系列，该系列模型源自强大的 Gemini 模型，具备出色的多模态和长上下文推理能力。Med-Gemini 模型通过整合网络搜索功能，能自适应新模态数据，具有处理跨专科多模态数据的能力。

图示：研究概述。（来源：论文）

研究人员在 14 个医疗基准中的 25 项任务中评估了 Med-Gemini 的能力，包括文本、多模态和长上下文应用程序。这是迄今为止最全面的多模态医疗模型基准测试。

临床语言任务上的SOTA结果

针对临床推理进行优化的 Med-Gemini 使用一种新颖的不确定性引导搜索策略，在 MedQA (USMLE) 上达到了 91.1% 的 SOTA 性能。

图示：基于文本的评估。（来源：论文）

研究人员与临床专家一起仔细重新注释 MedQA 数据集，并且量化和分析这些优化，发现这些优化是有意义的。Med-Gemini 在 NEJM CPC 和 GeneTuring 基准上表现出 SOTA 性能，进一步证明了搜索策略的有效性。

图示：将 Med-Gemini-L 1.0 推广到另外两个基于文本的基准。（来源：论文）

多模态和长情境能力

Med-Gemini 在研究人员评估的 7 个多模态医疗基准中的 5 个上实现了 SOTA 性能。该团队展示了多模态医疗微调的有效性以及使用专用编码器层定制心电图 (ECG) 等新型医疗模态的能力。

图示：基于长篇文本任务评估。（来源：论文）

Med-Gemini 还表现出强大的长上下文推理能力，在具有挑战性的基准上达到了 SOTA，例如冗长的电子健康记录中的「大海捞针」任务或医疗视频理解基准。接下来，研究人员还将进一步探索 Gemini 在放射报告生成方面的能力。

Med-Gemini 的现实世界效用

除了在流行的医疗基准上的表现之外，研究人员还通过对医疗记录摘要、临床转诊信生成和 EHR 问答等任务的定量评估来预览 Med-Gemini 的潜在现实世界效用。

图示：在皮肤科环境中与 Med-Gemini-M 1.5 进行假设多模态诊断对话的示例。（来源：论文）

该团队展示了多模态诊断对话中的定性示例以及模型的长上下文功能在医学教育、面向临床医生的工具和生物医学研究中的应用。

图示：在放射学环境中与 Med-Gemini-M 1.5 进行假设多模态诊断辅助对话的示例。（来源：论文）

研究人员表示，此类用途（特别是在诊断等安全关键领域）仍然需要大量的研究和开发。

结语

虽然取得了显著成果，Med-Gemini 及其应用仍需进一步验证和优化。尤其是在评估模型对医疗影像的精确标注、教育资料检索及与具体解剖结构相关的对话能力上，还有很大的探索空间。

为了在实际医疗环境中发挥最大效用，必须密切审视模型在数据检索和生成中的临床错误，主动识别并减轻数据偏见，确保模型的公平性和准确性。

此外，研究人员提到，针对特定医疗专业（如神经学、儿科、精神科）的案例分析显示，模型表现存在差异，提示未来研究应针对不同专科特点进行定制化改进。

通过持续的临床验证、用户反馈循环和算法迭代，Med-Gemini 模型有望更好地融入临床工作流程，提高医患沟通效率，支持临床决策，最终促进医疗质量和患者安全的提升。

总之，大型多模态语言模型正在开创健康和医学的新时代。

论文链接：https://arxiv.org/abs/2404.18416

相关内容：https://twitter.com/_akhaliq/status/1785137044169138641

性能人工智能 GPT-4 测试 GPT AI 理论谷歌

声明：本文转载自机器之心，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！