474阅读
2回复

[智能应用]Grok4成“宇宙最强模型”？AI竞赛进入“马斯克节奏” [复制链接]

上一主题下一主题查看指定楼层

离线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 116620

金币: 7582

道行: 19524

原创: 29525

奖券: 18205

斑龄: 202

道券: 10562

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 24932(小时)
注册时间: 2007-11-29
最后登录: 2025-12-15

只看楼主倒序阅读使用道具楼主发表于: 07-11

虽然马斯克本人一脸疲态，但他亲自坐镇，给Grok 4的噱头拉到顶配。

“宇宙最强模型”“它比所有领域的人类博士都聪明，无一例外”“Grok 4还没发明新科学或新物理定律只是时间问题”“Grok 4解决代码问题，比Cursor更好用”……

以上宣言，是马斯克为旗下AI公司xAI最新旗舰大模型Grok 4的定调。

Grok 4也确实争气，在“人类最后的考试”（Humanity's Last Exam）中，拿到了38.6%的准确率，超过了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3的21%。多智能体版本Grok 4 Heavy拿到了44.4%，如果进一步使用工具辅助，则能达到50.7%。

这背后，是“暴力计算美学”，xAI耗时6个月搭建起来的10万块H100 GPU超级算力中心正在给出回报，Grok 4的训练量是Grok 3的10倍，是Grok 2的100倍。

回归商业世界的马斯克火力全开，接下来还计划 8 月推出代码模型，9 月上线多模态智能代理，10 月发布视频生成模型。

据悉，Grok已经被配置在了特斯拉最新固件里，未来也将通过人形机器人与现实世界交互。

AI大模型、自动驾驶、人形机器人、商业航天，马斯克的AI帝国正在越来越宏大，节奏也更甚从前。

Grok 4有多能打？

在多个高难度基准测试中，Grok 4表现出色。

马斯克在直播中强调，Grok 4在人文、数学、物理、工程等学科均达到博士以上水平，“比几乎所有学科的研究生更聪明”。

推理能力刷新纪录。Grok 4 拿到历史高分的“人类最后的考试”，是一份被称为“AI 世界终极试炼”的测试合集，这份专门针对AI的考卷，覆盖了数学、化学、语言学、自然科学等一百多个学科，大模型在这份测试中无法依赖网络搜索，只能凭自己的理解和推理能力作答。

能应对这份考卷的Grok 4，推理能力有大幅提升，可以减少对现有知识框架的依赖。

除HLE测试领先外，Grok 4在GPQA（研究生级问答）中拿到了88.9%，在美国数学邀请赛（AIME25）中拿下满分，ARC-AGI-2测试中以16.2%得分登顶（超第二名Claude Opus 4近一倍）。

商业场景的落地验证方面，在名为 Vending-Bench 的商业模拟任务中，Grok 4 也表现突出，经营自动售货机时平均净资产达到 4684.15 美元，是第二名的两倍，证明了长期规划和多步骤推理能力。

值得注意的是，Grok 4的创新点在于“工具原生融合”架构。与多数模型后期接入工具不同，Grok 4在训练阶段嵌入了搜索、代码执行等工具，使其能灵活调用资源解决复杂问题。例如直播演示中，它通过检索学术论文、调用模拟工具，生成了黑洞碰撞的可视化动态模型。

不过，业内人士认为，Grok 4 的强项主要集中在推理和复杂知识整合方面，而在代码、多模态、图像和视频生成等方面还有进步空间。

“最贵”模型的想象空间

xAI同步推出了行业最贵订阅计划：Super Grok Heavy月费高达300美元，较OpenAI顶级订阅贵50%。API定价同样激进，每百万token输入3美元、输出15美元。

高定价背后其实是训练成本的陡增。Grok 4百倍于前代的训练量，依托10万块H100 GPU集群完成，xAI并未披露单次训练耗资，但马斯克提到的“我们快没有合适问题考验AI了”，侧面印证了模型能力已逼近当前测试极限。

Grok 4的终极目标是与现实世界交互。马斯克透露，今年Grok 4还将融合有限元分析、流体动力学等工具，构建高精度物理模拟器（如黑洞模拟）。在他的规划中，Grok 4将通过Optimus（马斯克旗下的擎天柱）人形机器人连接现实，“让AI接受物理定律的最终检验”。另有消息显示，目前特斯拉最新固件已预埋Grok，未来或将作为车载语音助手及自动驾驶的“大脑”。

“我们正站在智能大爆炸的开端。”马斯克表示，对AI的最终测试是现实世界，未来AI技术将会放到改进汽车或火箭等领域验证有效性。

“睡在算力中心”的掌舵人归来

从特斯拉Robotaxi（无人驾驶出租车）秀肌肉，到Grok 4的暴力美学，近10天，马斯克已经称霸舆论场两回，他正以标志性的激进节奏推进业务。

马斯克所布局的自动驾驶、AI大模型、人形机器人、商业航天，逐渐形成闭环。Grok大模型作为“大脑”，驱动特斯拉自动驾驶、Optimus机器人行动决策；特斯拉车辆与机器人反馈的真实场景数据，反哺模型迭代；其旗下SpaceX星链提供全球低延迟通信，支撑实时AI交互。

OpenAI的ChatGPT-5还在酝酿中，目前AI军备竞赛进入“马斯克节奏”。马斯克的算力碾压、多场景捆绑，确实具有更宽广的应用想象力。

但在AI大模型快速迭代的当下，有多少用户愿意为了300美元月费的Grok 4买单，还是未知数。

高调背后也暗藏风险。Grok近期因发表反犹言论遭土耳其封禁、波兰政府投诉，迫使xAI紧急删除不当内容并调整审核策略。在“AI寻求真理”的路上，如何在开放性与安全性间平衡，不只是OpenAI 塞姆·奥特曼的难题，也是马斯克的。

马斯克在今天的直播中说：“安全是最重要的事，我们需要确保AI是一个好AI。你可以把AI看作是超级天才的孩子，它最终会比你聪明，但我们仍然要灌输正确的价值观。”

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 211393

金币: 606598

道行: 2006

原创: 2438

奖券: 3180

斑龄: 40

道券: 1167

获奖: 0

座驾

设备

摄影级

在线时间: 46364(小时)
注册时间: 2008-10-01
最后登录: 2025-12-16

只看该作者沙发发表于: 07-11

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

马斯克对Grok 4的宣传非常高调，他将Grok 4称为“宇宙最强模型”，并表示它在多个学科上达到了博士以上的水平，甚至认为它比所有领域的人类博士都聪明。Grok 4在“人类最后的考试”中的表现确实出色，准确率达到了38.6%，超过了谷歌和OpenAI的模型。此外，Grok 4 Heavy版本的准确率更是达到了44.4%，使用工具辅助后能达到50.7%。这些成绩背后是xAI公司耗时6个月搭建的10万块H100 GPU超级算力中心的支持，Grok 4的训练量是前代模型的10倍甚至100倍。

马斯克还计划在未来几个月推出更多的AI产品，包括代码模型、多模态智能代理和视频生成模型。Grok 4已经被集成到了特斯拉的最新固件中，并计划通过人形机器人与现实世界交互，这表明马斯克的AI帝国正在不断扩张。

在多个基准测试中，Grok 4展现了其卓越的推理能力，尤其是在“人类最后的考试”中，这份测试覆盖了一百多个学科，要求AI仅凭理解和推理能力作答，不依赖网络搜索。Grok 4在其他测试中也取得了优异的成绩，如在GPQA中拿到了88.9%，在AIME25中拿下满分，在ARC-AGI-2测试中以16.2%得分登顶。

商业应用方面，Grok 4在Vending-Bench商业模拟任务中表现出色，证明了其长期规划和多步骤推理能力。Grok 4的创新点在于其“工具原生融合”架构，使其能灵活调用资源解决复杂问题。

尽管Grok 4在推理和复杂知识整合方面表现出色，但在代码、多模态、图像和视频生成等方面还有进步空间。xAI推出的订阅计划价格昂贵，反映了训练成本的增加。马斯克的终极目标是让Grok 4与现实世界交互，通过人形机器人连接现实，并作为车载语音助手及自动驾驶的“大脑”。

总的来说，Grok 4展现了强大的能力，但也面临着挑战，包括如何平衡开放性与安全性的问题。马斯克强调了安全的重要性，并表示需要确保AI是一个好AI，灌输正确的价值观。