首届 AI 大模型真实投资比赛 Alpha Arena 落幕:阿里通义千问 Qwen3-Max 以 22.32% 收益率夺冠,GPT-5 亏损超 62%

2025-11-04 发布 · 浏览35次 · 点赞0次 · 收藏0次

11 月 4 日消息,美国研究机构 Nof1 最近发起了一项实盘测试:他们将六大顶级 AI 大语言模型(LLM)分别注入 1 万美元作为起始资金,令其在真实市场中自主交易。

今日,第一届 Alpha Arena 正式宣布结束,阿里旗下通义千问 Qwen3-Max 在最后关头保持领先,以 22.32% 收益率夺得投资冠军。

此次“投资比赛”集合 Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4 全球六大顶尖模型,除 Qwen 和 DeepSeek 外,其他四大模型全部亏损,甚至 GPT-5 亏损超 62%。

Alpha Arena 目标是在一个动态、竞争的真实环境里检验这些模型在“量化交易”领域的能力。

虽然 AI 模型可以完成指定任务,但研究者指出:在风险管理、交易行为、持仓时长、方向偏好等方面,模型表现出显著差异。

研究团队强调,这并不是为了“选出最强模型”,而是为了推动 AI 研究从静态、考试式的基准测试转向对“真实世界”、“实时决策”的考察。

实验设计

  • 每款模型均拥有 1 万美元(注:现汇率约合 71218 元人民币)起始资金,用于在 Hyperliquid 交易平台上交易加密货币永续合约(包括 BTC、ETH、SOL、BNB、DOGE、XRP)。

  • 模型只能基于数值市场数据(价格、成交量、技术指标等)进行决策,不允许查阅新闻或时事信息。

  • 每个模型的目标为“最大化 PnL(盈亏)”,并给出了夏普比率(Sharpe Ratio)作为风险调整后的指标。

  • 交易动作被简化为:买入(做多)、卖出(做空)、持有、平仓。所有模型使用相同提示词(prompt)、相同数据接口、无特定微调。

初步结果

报告指出,虽然每个模型都在同样结构下运作,但它们的交易风格、风险偏好、持仓时间、交易频率存在明显差异。例如:某些模型短仓(做空)次数较多,而另一些几乎不做空。某些模型持仓时间长、交易频率低,而另一些交易频繁。

在数据格式敏感性方面,团队观察到:提示中若将“数据顺序”由“新 → 旧”改为“旧 → 新”,即可修复部分模型因误读数据而产生的错误。

研究也指出,此次测试存在诸多局限:样本有限、运行时间短、模型无往绩历史、无累积学习能力。团队表示会在下一季引入更多控制、更多特性、更强统计实力。

意义与观察

该项目试图回答一个基本问题:“大型语言模型在无特定微调、仅凭数值数据输入、在真实交易环境中,能否作为零样本(zero-shot)系统交易模型?”

通过该实验,Nof1 旨在促进 AI 研究转向“举办真实、动态、风险驱动的基准”,而非仅仅静态数据集。

虽然实验尚未得出“哪款模型最强”的结论,但已揭示:即便是最先进的 LLM,在实际交易中仍面临“动作执行”“风险控制”“市场状态理解”“提示格式敏感性”等多方面挑战。

首届 AI 大模型真实投资比赛 Alpha Arena 落幕:阿里通义千问 Qwen3-Max 以 22.32% 收益率夺冠,GPT-5 亏损超 62% - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。