研究证实：AI 大模型跨多轮对话任务表现不佳，性能最高降 39%

2026-03-01 发布浏览303次点赞0次收藏0次

3 月 1 日消息，据 THE DECODER 报道，新一代大语言模型（从 GPT-5 及后续版本开始）在任务需要跨多轮对话完成时，表现依然不佳。研究员菲利普 · 拉班（Philippe Laban）及其团队在代码、数据库、操作指令、数据转文本、数学计算、文本摘要这六大任务上对现有模型进行了测试。当信息被拆分到多条消息中（分片式），而非集中在单次提示词里（拼接式）时，模型性能会显著下降。

注意到，更新的模型表现略好一些，性能降幅从 39% 缩小到 33%，但问题远未解决。Python 任务的提升最为明显，部分模型仅损失 10%–20% 的性能。拉班认为，实际场景中的性能损失可能更严重，因为测试只使用了简单的用户模拟；如果用户在对话中途改变想法，性能下降幅度可能会更大。

原始研究发现，调低温度值（temperature）这类技术微调无法解决这一问题。研究人员建议：一旦出现异常，重新开启一段新对话，最好先让模型把所有请求总结一遍，再用这份总结作为新对话的起点。

大语言模型大模型数据库 AI 人工智能 Python 性能测试 GPT

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

研究证实：AI 大模型跨多轮对话任务表现不佳，性能最高降 39%

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。