AAAI 2026 标签,匹配到约1个结果, 耗时0.5592秒
摩尔线程大模型对齐研究获国际顶级学术会议认可:URPO 框架入选 AAAI 2026
在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,摩尔线程 AI 研究团队提出了 URPO 统一奖励与策略优化框...
2025-11-14
·
浏览19次
上一页
·
下一页
· 当前第1页
AI 中文社