首届 AI 大模型真实投资比赛 Alpha Arena 落幕：阿里通义千问 Qwen3-Max 以 22.32% 收益率夺冠，GPT-5 亏损超 62%

2025-11-04 发布浏览725次点赞0次收藏0次

11 月 4 日消息，美国研究机构 Nof1 最近发起了一项实盘测试：他们将六大顶级 AI 大语言模型（LLM）分别注入 1 万美元作为起始资金，令其在真实市场中自主交易。

今日，第一届 Alpha Arena 正式宣布结束，阿里旗下通义千问 Qwen3-Max 在最后关头保持领先，以 22.32% 收益率夺得投资冠军。

此次“投资比赛”集合 Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4 全球六大顶尖模型，除 Qwen 和 DeepSeek 外，其他四大模型全部亏损，甚至 GPT-5 亏损超 62%。

Alpha Arena 目标是在一个动态、竞争的真实环境里检验这些模型在“量化交易”领域的能力。

虽然 AI 模型可以完成指定任务，但研究者指出：在风险管理、交易行为、持仓时长、方向偏好等方面，模型表现出显著差异。

首届 AI 大模型真实投资比赛 Alpha Arena 落幕：阿里通义千问 Qwen3-Max 以 22.32% 收益率夺冠，GPT-5 亏损超 62%

研究团队强调，这并不是为了“选出最强模型”，而是为了推动 AI 研究从静态、考试式的基准测试转向对“真实世界”、“实时决策”的考察。

每款模型均拥有 1 万美元（注：现汇率约合 71218 元人民币）起始资金，用于在 Hyperliquid 交易平台上交易加密货币永续合约（包括 BTC、ETH、SOL、BNB、DOGE、XRP）。
模型只能基于数值市场数据（价格、成交量、技术指标等）进行决策，不允许查阅新闻或时事信息。
每个模型的目标为“最大化 PnL（盈亏）”，并给出了夏普比率（Sharpe Ratio）作为风险调整后的指标。
交易动作被简化为：买入（做多）、卖出（做空）、持有、平仓。所有模型使用相同提示词（prompt）、相同数据接口、无特定微调。

首届 AI 大模型真实投资比赛 Alpha Arena 落幕：阿里通义千问 Qwen3-Max 以 22.32% 收益率夺冠，GPT-5 亏损超 62%

报告指出，虽然每个模型都在同样结构下运作，但它们的交易风格、风险偏好、持仓时间、交易频率存在明显差异。例如：某些模型短仓（做空）次数较多，而另一些几乎不做空。某些模型持仓时间长、交易频率低，而另一些交易频繁。

在数据格式敏感性方面，团队观察到：提示中若将“数据顺序”由“新 → 旧”改为“旧 → 新”，即可修复部分模型因误读数据而产生的错误。

研究也指出，此次测试存在诸多局限：样本有限、运行时间短、模型无往绩历史、无累积学习能力。团队表示会在下一季引入更多控制、更多特性、更强统计实力。

该项目试图回答一个基本问题：“大型语言模型在无特定微调、仅凭数值数据输入、在真实交易环境中，能否作为零样本（zero-shot）系统交易模型？”

通过该实验，Nof1 旨在促进 AI 研究转向“举办真实、动态、风险驱动的基准”，而非仅仅静态数据集。

虽然实验尚未得出“哪款模型最强”的结论，但已揭示：即便是最先进的 LLM，在实际交易中仍面临“动作执行”“风险控制”“市场状态理解”“提示格式敏感性”等多方面挑战。

Alpha Arena 阿里通义千问 Qwen 3 Max Claude AI 测试 4 AI 大模型大模型 GPT

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！