谷歌发布Gemini Robotics On-Device,推动机器人AI模型本地运行新发展
模型简介
2025年6月25日,谷歌DeepMind宣布推出Gemini Robotics On-Device模型,这是谷歌DeepMind首个可以直接部署在机器人上的视觉 - 语言 - 动作(VLA)模型,属于Gemini Robotics系列,基础模型是具备多模态推理能力的Gemini 2.0。该模型无需持续的互联网连接,可在机器人机体上本地运行,对延迟敏感型应用非常有用,能确保在连接中断或零连接的环境中保持稳健性。
模型优势
高效运行与低延迟
该模型经过优化,可在机器人机体上高效运行,并且无需数据网络即可运行,能实现低延迟推理。这意味着它在运行过程中可以更快速地对任务做出响应,尤其适用于对时间要求较高的场景。
强大的泛化能力
Gemini Robotics On-Device展现出了强大的通用灵活性和任务泛化能力。在广泛的测试场景中表现强大,能够遵循自然语言指令,完成诸如拉开袋子拉链或折叠衣服等高度灵巧的任务。在更具挑战性的分布外任务和复杂的多步骤指令方面,也优于其他本地端方案。即使是本地运行的On-Device模式,也表现出了相当不俗的泛化性能。
可微调适应新任务
它是DeepMind推出的首个可供微调的VLA模型。开发者可通过微调来提升其性能,从而适应新任务。DeepMind在七项不同难度的灵巧操作任务上进行测试,包括拉开午餐盒拉链、画卡片和倒沙拉酱等,使用少于100个示例就能展现出良好的任务适应性能
跨具身适应性强
该模型可以适应不同的机器人。训练时采用的是ALOHA机器人,但实验表明能够进一步将其调整用于双臂Franka FR3机器人和Apptronik的Apollo人形机器人。在双臂机器人Franka上,能执行通用指令,完成诸如折叠连衣裙之类的灵巧任务或工业皮带装配任务;在Apollo人形机器人上也能有较好的表现。
对开发者的支持
对于开发者,谷歌将发布Gemini Robotics SDK,可用于轻松评估Gemini Robotics On-Device在其任务和环境中的表现。开发者还可使用该SDK在DeepMind的MuJoCo物理模拟器中测试该模型,并快速将其适应到新领域,只需50到100个演示即可。
市场影响
消息发布后,AI人工智能ETF(512930)、消费电子ETF(561600)盘中双双涨近1%。截至2025年6月25日10:14,中证消费电子主题指数(931494)上涨0.32%,消费电子ETF(561600)上涨0.76%;中证人工智能主题指数也受到一定影响。这显示出市场对该模型发布的积极反应,也体现了其在科技领域的重要影响力