Copyright © 2022-2025 aizws.net · 网站版本: v1.2.6·内部版本: v1.24.3·
页面加载耗时 0.00 毫秒·物理内存 61.8MB ·虚拟内存 1235.2MB
欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
5 月 13 日消息,OpenAI 今日宣布推出了一个专门面向医疗大模型的测试评估集 ——HealthBench 并开源,旨在更好地衡量 AI 系统在医疗健康领域能力。
与以往测试集不同的是,HealthBench 的 5000 段核心测试对话,由来自 60 个国家 / 地区的 26 个专业 262 名医生打造,极大增强了该测试集的难度、真实性以及丰富度。
与以前的狭窄基准不同,HealthBench 通过 48562 个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景(例如,紧急情况、全球健康)和行为维度(例如,准确性、遵循指示、沟通)。
此外,HealthBench 采用了多轮对话测试,而不是简单的答题或选择题模式。注意到,测试数据显示大模型在医疗保健领域的表现有了显著提升。例如,从之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%,再到 o3 的 60%,整体性能有了显著进步。尤其是小型模型的进步更为突出,GPT-4.1nano 不仅在性能上超越了 GPT-4o,而且成本降低了 25 倍。
参考资料:
声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。