258阅读
2回复

[智能应用]全球首个AI投资大赛结果出炉：阿里千问夺冠，美国四大模型均亏损 [复制链接]

上一主题下一主题查看指定楼层

离线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 165308

金币: 471388

道行: 20030

原创: 766

奖券: 350

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20228(小时)
注册时间: 2012-06-21
最后登录: 2025-12-21

只看楼主正序阅读使用道具楼主发表于: 11-04

— 本帖被兵马大元帅执行加亮操作(2025-11-07) —

用户被禁言,该主题自动屏蔽!

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 212867

金币: 618129

道行: 2006

原创: 2441

奖券: 3260

斑龄: 41

道券: 1197

获奖: 0

座驾

设备

摄影级

在线时间: 46511(小时)
注册时间: 2008-10-01
最后登录: 2025-12-21

只看该作者板凳发表于: 11-04

全球首个AI大模型实时投资比赛AlphaArena落幕：中国模型包揽冠亚，美国模型全军覆没

比赛概况与核心结果
2025年11月4日，由美国AI实验室Nof1发起的全球首个AI大模型实时投资比赛AlphaArena正式落下帷幕。这场历时17天的比赛，将六大顶尖AI大模型置于真实的加密货币市场中进行自动化交易对决，最终结果引发广泛关注：

- 冠军：阿里千问Qwen，以超过20%的收益率夺冠，具体收益率达到22.32%。
- 亚军：DeepSeek V3.1，同样实现盈利。
- 其他模型表现：四大美国顶尖模型（GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4）全部亏损。其中，GPT-5亏损最为严重，超过62%，持仓总市值仅为初始资金的三四成；Gemini 2.5 Pro亏损也尤为明显。

比赛规则与设置
AlphaArena旨在检验AI大模型在真实、动态金融市场中的决策能力，其规则设计确保了公平性和透明度：

1. 参赛模型：六大主流大模型，包括中国的Qwen3-Max、DeepSeek V3.1，以及美国的GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4。
2. 初始资金：每个模型配备1万美元真实资金。
3. 交易场所：在Hyperliquid交易所进行加密货币永续合约交易，涉及BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币。
4. 交易方式：全程无人工干预，模型自主完成决策与交易。所有模型接收相同的市场数据和提示词，交易记录、持仓和账户价值实时公开。
5. 独特机制：允许AI模型“聊天互动”，通过模拟对话辩论市场走势，展示决策逻辑。

比赛进程与关键转折点
比赛初期（约前5天），六大模型表现相对谨慎。随后逐渐分化为三大阵营：

1. 第一梯队：阿里千问Qwen和DeepSeek V3.1表现突出，屡次互换第一位置，始终保持领先。
2. 第二梯队：Claude 4.5 Sonnet和Grok 4采用相近策略，略有盈利但整体仍处于亏损边缘。
3. 第三梯队：GPT-5和Gemini 2.5 Pro长期亏损垫底。

关键转折点出现在10月21日至22日：
- Grok 4（马斯克旗下）和Claude 4.5 Sonnet的收益大幅下滑，由盈转亏。
- 当日六个大模型收益率一度全部告负。
- DeepSeek V3.1和Qwen3-Max在此期间自动改写投资策略，在其他模型持续亏损时脱颖而出，净值曲线波动上涨。Qwen3-Max更是趁机一度超过DeepSeek V3.1。

此后比赛演变为Qwen与DeepSeek的“双雄争霸”。最终，阿里千问Qwen凭借关键时刻的紧急避险策略，在最后关头超越DeepSeek，以22.32%的收益率锁定冠军。

各模型具体表现分析
- 阿里千问Qwen：以22.32%的收益率夺冠。其策略被评价为风险偏好较高，仓位规模常为其他模型的数倍，且自我报告的置信度最高。比赛中展现了较强的市场适应能力和风险控制能力。
- DeepSeek V3.1：位列第二，同样实现盈利。作为幻方量化机构的产物，其交易风格相对稳定，在比赛初期曾长期领先。母公司深厚的量化背景为其提供了专业支持。
- Claude 4.5 Sonnet & Grok 4：虽在第二阵营，但最终未能盈利。Claude因过于“讲逻辑”导致调仓犹豫、反复止损；Grok 4采用激进策略，高频交易使其在市场波动中损失惨重。
- GPT-5 & Gemini 2.5 Pro：长期亏损垫底。GPT-5做空频率极高，且风险控制能力不足，最终亏损超62%；Gemini 2.5 Pro交易风格类似“散户”，频繁更改策略，交易成本高昂，净值持续下滑。

行业影响与专家解读
中国大模型的崛起
AlphaArena的结果凸显了中国大模型在解决实际问题上的强大潜力。阿里千问和DeepSeek的成功证明了中国AI在场景理解深度方面的优势。正如行业人士指出，“AI对于场景的深刻理解，将成为大模型落地和未来全球AI竞赛的关键。”

市场份额与开源生态
根据OpenRouter 7月公布的榜单：
- 阿里通义千问以10.4%的市场份额超越OpenAI（4.7%），位列全球第四。
- 成长最快前10大模型中9个为开源模型。其中，Qwen3-Coder调用量达近500亿Tokens，位居第一；通义千问在前十中占据五席。

开源生态的战略意义
零一万物CEO李开复在今年9月曾强调DeepSeek对中国AI发展的核心贡献在于推动开源生态形成。“如果十年后回顾DeepSeek如何让中国未落后于美国，答案并非其技术本身，而是它带来了中国大模型开源时代。”自DeepSeek开源后，国内多家企业相继开源大模型，形成“既开源、又比拼速度”的良性竞争格局。李开复认为，这种模式高度契合中国企业学习特性，有望助力中国在AI领域缩小与美国的差距。

总结
AlphaArena比赛不仅是一场技术较量，更是全球AI发展现状的缩影。中国大模型Qwen和DeepSeek在真实金融市场的优异表现，标志着中国AI在应用落地和场景理解上已达到世界领先水平。同时，比赛也暴露了部分海外大模型在复杂动态环境下的决策短板。随着开源生态的蓬勃发展和场景化能力的持续提升，中国AI在全球竞赛中的地位将进一步巩固。此次比赛的结果无疑将为未来AI大模型的应用方向和技术优化提供重要参考。