OpenAI 发布并开源医疗测试基准 HealthBench，旨在更好地衡量 AI 系统在医疗健康领域能力

2025-05-13 发布浏览653次点赞0次收藏0次

5 月 13 日消息，OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源，旨在更好地衡量 AI 系统在医疗健康领域能力。

与以往测试集不同的是，HealthBench 的 5000 段核心测试对话，由来自 60 个国家 / 地区的 26 个专业 262 名医生打造，极大增强了该测试集的难度、真实性以及丰富度。

与以前的狭窄基准不同，HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估，涵盖多个健康背景（例如，紧急情况、全球健康）和行为维度（例如，准确性、遵循指示、沟通）。

此外，HealthBench 采用了多轮对话测试，而不是简单的答题或选择题模式。注意到，测试数据显示大模型在医疗保健领域的表现有了显著提升。例如，从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%，再到 o3 的 60%，整体性能有了显著进步。尤其是小型模型的进步更为突出，GPT-4.1nano 不仅在性能上超越了 GPT-4o，而且成本降低了 25 倍。

参考资料：

《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》

4o ChatGPT GPT 性能测试 4 OpenAI 大模型 3.5 AI

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

OpenAI 发布并开源医疗测试基准 HealthBench，旨在更好地衡量 AI 系统在医疗健康领域能力

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。