英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

2025-06-05 发布 · 浏览291次 · 点赞0次 · 收藏0次

6 月 5 日消息，科技媒体 marktechpost 昨日（6 月 4 日）发布博文，报道称英伟达推出 ProRL 强化学习方法，并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景简介

推理模型是一种专门的人工智能系统，通过详细的长链推理（Chain of Thought，CoT）过程生成最终答案。

强化学习（Reinforcement Learning，RL）在训练中扮演非常重要的角色，DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习（RLVR）方法，推广了 GRPO、Mirror Descent 和 RLOO 等算法。

然而，研究者仍在争论强化学习是否真正提升大型语言模型（LLM）的推理能力。现有数据表明，RLVR 在 pass@k 指标上未能显著优于基础模型，显示推理能力扩展受限。

此外，当前研究多集中于数学等特定领域，模型常被过度训练，限制了探索潜力；同时，训练步数通常仅数百步，未能让模型充分发展新能力。

ProRL 方法的突破与应用

英伟达研究团队为解决上述问题，推出 ProRL 方法，延长强化学习训练时间至超过 2000 步，并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域，涵盖 13.6 万个样本。

英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

他们采用 verl 框架和改进的 GRPO 方法，开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

这是全球最佳的 1.5B 参数推理模型，在多项基准测试中超越基础模型 DeepSeek-R1-1.5B，甚至优于更大的 DeepSeek-R1-7B。

英伟达推出 ProRL 方法：强化学习训练至 2000 步，打造全球最佳 1.5B 推理 AI 模型

测试结果显示，该模型在数学领域平均提升 15.7%，编程任务 pass@1 准确率提升 14.4%，STEM 推理和指令遵循分别提升 25.9% 和 22.0%，逻辑谜题奖励值提升 54.8%，展现出强大的泛化能力。

附上参考地址

AI 人工智能框架测试英伟达

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(291) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程 / 今日访问175人，当前在线8人，最高同时在线163人

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。