初探 Deepseek R1-0528 开源模型:AI 编程能力跃升,媲美 OpenAI o3 和 o4-mini

2025-05-29 发布 · 浏览88次 · 点赞0次 · 收藏0次

5 月 29 日消息,深度求索(Deepseek)昨日通过官方交流群,邀请用户测试 DeepSeek-R1-0528 模型小版本初步测试结果表明,R1-0528 在编程能力、审美设计和代码补全等方面表现出色,尤其在复杂指令处理和前端页面生成上展现了高精度和高效能。

DeepSeek-R1-0528 模型在多个方面实现了性能提升,其中最为亮眼的就是编程能力,能根据用户输入的简单提示词,快速生成高质量代码。

代码测试平台 Live CodeBench 中显示,其性能可以媲美 OpenAI 最新的 o3 模型(High)。

在 Extended NYT Connections 跑分中,DeepSeek-R1-0528 模型跑分为 49.8 分,而初代 Deepseek R1 模型为 38.6 分。

注:Extended NYT Connections 是一个用于评估大型语言模型(LLM)性能的基准测试,基于《纽约时报》的 Connections 谜题游戏。

这个基准测试包含了 651 个 NYT Connections 谜题,并且增加了额外的词汇以提高难度,旨在更全面地测试模型的语言理解和推理能力。

R1-05-28 具有 OpenAI o3 和谷歌 Gemini 2.5 Pro 专业风格的响应。箭头 / 星号的使用与 o3 风格非常一致,结尾处“why it works”的表述更具说服力。

此外,在审美设计和代码补全(code completion)方面,R1-0528 同样表现卓越。测试中,该模型轻松应对多样化任务,输出结果精准且实用。

在生成复杂前端页面和动态动画方面,R1-0528 也展现了强大的能力,能准确理解复杂指令。更重要的是,相比较 OpenAI 的 o3 和 o4-mini 模型,R1-0528 大幅缩短了推理时长,提供了更加流畅和高效的使用体验。

初探 Deepseek R1-0528 开源模型:AI 编程能力跃升,媲美 OpenAI o3 和 o4-mini - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。