苹果创新“清单法”：用 AI 大模型当“老师”，教小模型更精准执行复杂指令

2025-08-26 发布浏览360次点赞0次收藏0次

8 月 26 日消息，科技媒体 9to5Mac 昨日（8 月 25 日）发布博文，报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”（RLCF）方法，用任务清单替代传统人类点赞 / 点踩评分，显著提升大语言模型（LLMs）执行复杂指令能力。

注：RLCF 的全称为 Reinforcement Learning from Checklist Feedback，不同于传统的“人类反馈强化学习”（RLHF）依赖人工点赞 / 点踩，RLCF 为每条用户指令生成具体的检查清单，并按 0-100 分逐项评分，用以指导模型优化。

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法，涵盖五个常用评测基准。结果显示，RLCF 是唯一在全部测试中均取得提升的方案：

FollowBench 硬性满意率提升 4 个百分点
InFoBench 提高 6 点
Arena-Hard 胜率增加 3 点
某些任务最高提升达 8.2%。

这表明清单反馈在复杂、多步骤需求的执行中效果显著。

苹果创新“清单法”：用 AI 大模型当“老师”，教小模型更精准执行复杂指令

清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型，结合既有研究方法，为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项，例如“是否翻译成西班牙语？”。随后，大模型对候选回答逐项打分，综合加权后作为小模型的训练奖励信号。

苹果研究者也坦言该方法存在局限。首先，它依赖更强模型作为评判者，这在资源受限场景下未必可行。其次，RLCF 专注于提升复杂指令执行能力，并非设计用于安全对齐，因此不能替代安全性评估与调优。对于其他任务类型，该方法的适用性仍需进一步验证。

Reminders App iOS 18

AI 测试大模型 iOS 4 苹果

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

苹果创新“清单法”：用 AI 大模型当“老师”，教小模型更精准执行复杂指令

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。