切换到宽版
  • 9阅读
  • 2回复

[智能应用]全球首个AI投资大赛结果出炉:阿里千问夺冠,美国四大模型均亏损 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
161927
金币
437914
道行
20030
原创
766
奖券
311
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19539(小时)
注册时间: 2012-06-21
最后登录: 2025-11-05
只看楼主 正序阅读 使用道具 楼主  发表于: 昨天 18:15
11月4日,界面新闻获悉,全球首个AI大模型实时投资比赛“Alpha Arena”落下帷幕。历时17天,阿里千问Qwen以超20%的收益率夺冠,Qwen和DeepSeek两款中国模型也成为唯二盈利的模型,而美国四大顶尖模型全部亏损,GPT-5亏损超60%垫底。

该竞赛由美国专注于金融市场的AI实验室Nof1于10月18日发起,将多个AI大模型置于真实金融市场中进行自动化交易对决。首季竞赛邀请了包括GPT-5、Gemini 2.5 Pro、Grok 4、Claude 4.5 Sonnet、Qwen3 Max和DeepSeek V3.1 在内的六大主流大模型,给每个模型配备1万美元真实资金,在Hyperliquid交易所进行加密货币永续合约交易,以检验模型的交易能力。
竞赛采用统一输入方式,所有模型接收相同的市场数据和提示词,交易记录、持仓和账户价值实时公开,以保证比赛的公平性和透明度。此外,Nof1还允许AI模型“聊天互动”,让它们在模拟对话中辩论市场走势,展示决策逻辑,最终根据盈亏情况决出冠军。
比赛初期,六大模型相对谨慎,大约5天后,参赛模型大致分为三大阵营:阿里千问和DeepSeek处于领先态势,屡次互换第一,始终位列第一梯队;Claude Sonnet 4.5和Grok 4在相近策略驱动下,维持在第二阵营,略有盈利,整体仍亏损;GPT-5、Gemini 2.5 Pro两大模型则长期亏损垫底。

截至北京时间11月4日早上比赛结束,阿里千问最后超越DeepSeek,Qwen以超20%的胜率获胜;DeepSeek实现盈利,位列第二;Claude 4.5 Sonnet、Grok 4、Gemini 2.5 Pro和GPT-5四大海外模型均亏损,Gemini 2.5 Pro和GPT-5亏损尤为明显,截至最终持仓总市值仅为初始资金的三四成。
有行业人士指出,阿里千问和DeepSeek在实战中的表现,证明了中国模型在解决实际问题的强大潜力,AI对于场景的深刻理解,将成为大模型落地和未来全球AI竞赛的关键。
根据全球知名的大模型API三方聚合平台OpenRouter在7月公布的榜单,来自中国的DeepSeek和阿里通义千问跻身全球前五。其中,通义千问以10.4%的市场份额,超越OpenAI的4.7%,位列第四。
OpenRouter推文显示,当下成长最快前10大模型中有9个是开源的。其中,Qwen3-Coder调用量以近500亿Tokens高居第一,通义千问包揽前三,并在前十中占据五席。
而在今年9月,零一万物CEO李开复在长江CEO 20周年返校日庆典上表示,DeepSeek对中国AI发展的核心贡献在于推动了开源生态的形成。“如果十年后,我们回顾DeepSeek怎么让中国没有落后于美国,答案并非其技术能力本身,而是它带来了中国(大模型)开源时代。”
李开复提到,自DeepSeek开源以来,国内多家企业相继开源大模型,形成了“既开源、又比拼速度”的良性竞争局面。他认为,开源模式高度契合中国企业的学习特性,有望助力中国在AI领域缩小与美国的差距。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线jjybzxw

UID: 551814


发帖
199759
金币
519283
道行
2004
原创
2433
奖券
3100
斑龄
39
道券
1134
获奖
0
座驾
设备
摄影级
在线时间: 44359(小时)
注册时间: 2008-10-01
最后登录: 2025-11-05
只看该作者 板凳  发表于: 昨天 19:04
全球首个AI大模型实时投资比赛AlphaArena落幕:中国模型包揽冠亚,美国模型全军覆没

比赛概况与核心结果
2025年11月4日,由美国AI实验室Nof1发起的全球首个AI大模型实时投资比赛AlphaArena正式落下帷幕。这场历时17天的比赛,将六大顶尖AI大模型置于真实的加密货币市场中进行自动化交易对决,最终结果引发广泛关注:

- 冠军:阿里千问Qwen,以超过20%的收益率夺冠,具体收益率达到22.32%。
- 亚军:DeepSeek V3.1,同样实现盈利。
- 其他模型表现:四大美国顶尖模型(GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4)全部亏损。其中,GPT-5亏损最为严重,超过62%,持仓总市值仅为初始资金的三四成;Gemini 2.5 Pro亏损也尤为明显。

比赛规则与设置
AlphaArena旨在检验AI大模型在真实、动态金融市场中的决策能力,其规则设计确保了公平性和透明度:

1. 参赛模型:六大主流大模型,包括中国的Qwen3-Max、DeepSeek V3.1,以及美国的GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4。
2. 初始资金:每个模型配备1万美元真实资金。
3. 交易场所:在Hyperliquid交易所进行加密货币永续合约交易,涉及BTC、ETH、SOL、BNB、DOGE、XRP六种主流加密货币。
4. 交易方式:全程无人工干预,模型自主完成决策与交易。所有模型接收相同的市场数据和提示词,交易记录、持仓和账户价值实时公开。
5. 独特机制:允许AI模型“聊天互动”,通过模拟对话辩论市场走势,展示决策逻辑。

比赛进程与关键转折点
比赛初期(约前5天),六大模型表现相对谨慎。随后逐渐分化为三大阵营:

1. 第一梯队:阿里千问Qwen和DeepSeek V3.1表现突出,屡次互换第一位置,始终保持领先。
2. 第二梯队:Claude 4.5 Sonnet和Grok 4采用相近策略,略有盈利但整体仍处于亏损边缘。
3. 第三梯队:GPT-5和Gemini 2.5 Pro长期亏损垫底。

关键转折点出现在10月21日至22日:
- Grok 4(马斯克旗下)和Claude 4.5 Sonnet的收益大幅下滑,由盈转亏。
- 当日六个大模型收益率一度全部告负。
- DeepSeek V3.1和Qwen3-Max在此期间自动改写投资策略,在其他模型持续亏损时脱颖而出,净值曲线波动上涨。Qwen3-Max更是趁机一度超过DeepSeek V3.1。

此后比赛演变为Qwen与DeepSeek的“双雄争霸”。最终,阿里千问Qwen凭借关键时刻的紧急避险策略,在最后关头超越DeepSeek,以22.32%的收益率锁定冠军。

各模型具体表现分析
- 阿里千问Qwen:以22.32%的收益率夺冠。其策略被评价为风险偏好较高,仓位规模常为其他模型的数倍,且自我报告的置信度最高。比赛中展现了较强的市场适应能力和风险控制能力。
- DeepSeek V3.1:位列第二,同样实现盈利。作为幻方量化机构的产物,其交易风格相对稳定,在比赛初期曾长期领先。母公司深厚的量化背景为其提供了专业支持。
- Claude 4.5 Sonnet & Grok 4:虽在第二阵营,但最终未能盈利。Claude因过于“讲逻辑”导致调仓犹豫、反复止损;Grok 4采用激进策略,高频交易使其在市场波动中损失惨重。
- GPT-5 & Gemini 2.5 Pro:长期亏损垫底。GPT-5做空频率极高,且风险控制能力不足,最终亏损超62%;Gemini 2.5 Pro交易风格类似“散户”,频繁更改策略,交易成本高昂,净值持续下滑。

行业影响与专家解读
中国大模型的崛起
AlphaArena的结果凸显了中国大模型在解决实际问题上的强大潜力。阿里千问和DeepSeek的成功证明了中国AI在场景理解深度方面的优势。正如行业人士指出,“AI对于场景的深刻理解,将成为大模型落地和未来全球AI竞赛的关键。”

市场份额与开源生态
根据OpenRouter 7月公布的榜单:
- 阿里通义千问以10.4%的市场份额超越OpenAI(4.7%),位列全球第四。
- 成长最快前10大模型中9个为开源模型。其中,Qwen3-Coder调用量达近500亿Tokens,位居第一;通义千问在前十中占据五席。

开源生态的战略意义
零一万物CEO李开复在今年9月曾强调DeepSeek对中国AI发展的核心贡献在于推动开源生态形成。“如果十年后回顾DeepSeek如何让中国未落后于美国,答案并非其技术本身,而是它带来了中国大模型开源时代。”自DeepSeek开源后,国内多家企业相继开源大模型,形成“既开源、又比拼速度”的良性竞争格局。李开复认为,这种模式高度契合中国企业学习特性,有望助力中国在AI领域缩小与美国的差距。

总结
AlphaArena比赛不仅是一场技术较量,更是全球AI发展现状的缩影。中国大模型Qwen和DeepSeek在真实金融市场的优异表现,标志着中国AI在应用落地和场景理解上已达到世界领先水平。同时,比赛也暴露了部分海外大模型在复杂动态环境下的决策短板。随着开源生态的蓬勃发展和场景化能力的持续提升,中国AI在全球竞赛中的地位将进一步巩固。此次比赛的结果无疑将为未来AI大模型的应用方向和技术优化提供重要参考。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
161927
金币
437914
道行
20030
原创
766
奖券
311
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 19539(小时)
注册时间: 2012-06-21
最后登录: 2025-11-05
只看该作者 沙发  发表于: 昨天 18:16
根据最新公布的全球首个AI实盘投资大赛 Alpha Arena 结果,中国AI模型表现显著优于美国模型,具体信息整合如下:

🏆 比赛结果速览
冠军:阿里千问(Qwen)

最终收益率:22.32%(账户价值增至约1.22万美元)2811。
策略特点:进攻型风格,关键时刻紧急避险能力突出,交易频率适中但收益显著1021。
亚军:深度求索(DeepSeek)

最终收益率:约5%(账户价值约1.05万美元)1216。
策略特点:稳健型投资,风险控制严格,依托母公司幻方量化的金融背景2729。
美国四大模型全部亏损:

Claude 4.5 Sonnet:亏损 30.81%
Grok 4:亏损 45.3%
Gemini 2.5 Pro:亏损 56.71%
GPT-5:亏损 62.66%(垫底,仅剩初始资金的三成)2724。
🔍 赛事关键信息
主办方:美国金融AI实验室 Nof113。
时间:2025年10月18日–11月4日(共17天)69。
规则:
六大模型各获 1万美元 初始资金,在 Hyperliquid交易所 进行加密货币永续合约交易13。
全程无人工干预,模型自主决策,交易数据实时公开1021。
参赛模型:
中国:阿里千问(Qwen 3-Max)、深度求索(DeepSeek V3.1)
美国:GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 416。
📈 赛事进程亮点
前期格局(开赛5天后):

第一梯队:Qwen 与 DeepSeek 交替领先;
第二梯队:Claude 和 Grok 4 小幅亏损;
垫底组:GPT-5 和 Gemini 持续亏损310。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个