切换到宽版
  • 37阅读
  • 2回复

[智能应用]谷歌发布Gemini Robotics On-Device,实现机器人AI模型本地运行 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
144180
金币
263582
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16767(小时)
注册时间: 2012-06-21
最后登录: 2025-07-12



谷歌 DeepMind 于 6 月 24 日正式发布了 Gemini Robotics On-Device 模型,这是一个专为机器人设计的人工智能系统,最大的特点是可以完全在机器人设备本地运行,无需依赖云端连接,从而赋予机器人前所未有的自主性与灵活性。
此前,包括谷歌在内的许多机器人系统,都采用一种混合架构:在机器人上部署一个较小的模型以处理快速响应,同时将需要复杂推理和规划的“重脑力活”交由云端强大的服务器处理。这种方式虽然可行,但其弊端也显而易见。它不仅对网络连接的稳定性和速度提出了极高要求,任何网络延迟或中断都可能导致机器人反应迟缓甚至停摆;同时,将传感器数据(尤其是来自家庭或医疗等隐私敏感环境的视觉数据)上传至云端,也引发了持续的隐私和安全顾虑。
新发布的 Gemini Robotics On-Device 模型,正是为了解决这些核心痛点而生。它是一个完全集成的视觉语言动作(VLA,vision-language-action model)模型,能够同时处理视觉输入、自然语言指令和动作输出。这一切复杂的“思考”过程,如今都可以在机器人自身的计算单元上完成。
谷歌 DeepMind 的机器人技术主管 Carolina Parada 在介绍中解释道,这一进步得益于 Gemini 模型本身强大的多模态理解能力。“这就像 Gemini 能够写诗、总结文章、编写代码一样。”她表示,“它同样能够生成机器人的动作。”这种生成式的 AI 能力,使得机器人不再局限于通过强化学习对特定任务进行漫长而刻板的训练,而是能够对全新的、从未见过的指令和场景进行泛化理解和响应,极大地提升了机器人的通用性。
与前代需要云端协同的 Gemini Robotics 系统相比,On-Device 模型在自主性上实现了质的飞跃。它让机器人摆脱了网络的束缚,能够在网络信号不佳甚至完全没有网络的“离线”环境中独立工作。这为其在一些特殊场景的应用打开了想象空间,例如在偏远地区的勘探、信号被屏蔽的工厂车间,或是在对数据隐私有极高要求的医疗保健环境中辅助病人。在这些场景下,本地化处理不仅保证了操作的连续性和可靠性,也确保了所有敏感数据都保留在设备本地,最大限度地保护了隐私。
在性能方面,即使完全在本地运行,Gemini Robotics On-Device 在多项泛化能力基准测试中,其表现也已非常接近需要云端支持的、更强大的旗舰版 Gemini Robotics 模型,并显著优于之前的其他本地化模型。它不仅能完成像折叠衣物、整理手提袋这类日常任务,甚至可以应对“系鞋带”这种对机器人来说历来是巨大挑战的精细操作。

图丨基准测试结果(来源:DeepMind)

更值得关注的是该模型的可适应性和通用性。谷歌强调,Gemini Robotics On-Device 是其首个开放给开发者进行微调的机器人 VLA 模型,开发者可以根据自己的特定需求和应用场景,对模型进行定制化训练。研究表明,仅需 50 到 100 个新的任务演示(通常通过遥操作机器人完成),模型就能快速学习并掌握新技能,展现出强大的“快速任务适应”能力。
为了证明其跨平台的通用性,谷歌展示了该模型在不同物理机器人上的应用成果。虽然模型最初主要在谷歌自家的 ALOHA 双臂机器人上进行训练,但团队成功地将其适配到了多种第三方机器人上,包括德国 Franka Emika 公司的双臂协作机器人,以及由 Apptronik 公司开发的备受瞩目的人形机器人 Apollo。在演示中,Apollo 机器人在接收到“把黑色 T 恤放进礼品袋”或“把魔方放进礼品袋”等指令后,能够准确地识别目标物体并完成相应的操作。
不过,除了对其能力的赞许,许多网友也对其安全性产生了担忧。当一个强大的 AI 模型被赋予了控制物理实体的能力后,如何确保其行为安全、可控、可预测,便成为重中之重。Parada 坦言,生成式 AI 在输出上存在一定的随机性,这在聊天机器人中可能只是生成一些无伤大雅的怪异文本,但对于一个物理机器人而言,则可能引发严重的安全问题。
对此,谷歌强调,他们发布的 On-Device 模型本身只是一个核心的 VLA,并不包含完整的安全框架。谷歌建议并推荐开发者复制其内部团队所采用的多层安全策略。这包括将本地模型与标准的 Gemini Live API 连接,利用其内建的安全层进行语义和内容审查,以过滤掉不安全或不恰当的指令。同时,至关重要的是,开发者需要在机器人硬件层面部署一个低级别的安全控制器,对机器人的动作范围、力度等关键参数进行实时监控和限制,作为最后一道防线。谷歌也鼓励开发者利用其发布的语义安全基准和进行“红队演练”(red-teaming),在部署前充分暴露和修复模型的潜在安全漏洞。
目前,谷歌已经启动了一个“受信任的测试者计划”,邀请感兴趣的开发者和研究人员申请使用全新的 Gemini Robotics On-Device 模型及其配套的软件开发工具包。该工具包还集成了 MuJoCo 物理模拟器,方便开发者在部署到真实机器人之前,在虚拟环境中进行大量的测试和调试。
从长远来看,这次发布的模型还只是一个开始。Parada 透露,当前的 Gemini Robotics 模型是基于 Gemini 2.0 版本构建的,而谷歌的机器人团队通常比核心的 Gemini 模型开发进度晚一个版本。考虑到最新的 Gemini 2.5 的性能提升,其下一代机器人模型的性能也有望将获得提升。


山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
144180
金币
263582
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16767(小时)
注册时间: 2012-06-21
最后登录: 2025-07-12
只看该作者 沙发  发表于: 06-25
谷歌发布Gemini Robotics On-Device,推动机器人AI模型本地运行新发展
模型简介
2025年6月25日,谷歌DeepMind宣布推出Gemini Robotics On-Device模型,这是谷歌DeepMind首个可以直接部署在机器人上的视觉 - 语言 - 动作(VLA)模型,属于Gemini Robotics系列,基础模型是具备多模态推理能力的Gemini 2.0。该模型无需持续的互联网连接,可在机器人机体上本地运行,对延迟敏感型应用非常有用,能确保在连接中断或零连接的环境中保持稳健性。

模型优势
高效运行与低延迟
该模型经过优化,可在机器人机体上高效运行,并且无需数据网络即可运行,能实现低延迟推理。这意味着它在运行过程中可以更快速地对任务做出响应,尤其适用于对时间要求较高的场景。

强大的泛化能力
Gemini Robotics On-Device展现出了强大的通用灵活性和任务泛化能力。在广泛的测试场景中表现强大,能够遵循自然语言指令,完成诸如拉开袋子拉链或折叠衣服等高度灵巧的任务。在更具挑战性的分布外任务和复杂的多步骤指令方面,也优于其他本地端方案。即使是本地运行的On-Device模式,也表现出了相当不俗的泛化性能。

可微调适应新任务
它是DeepMind推出的首个可供微调的VLA模型。开发者可通过微调来提升其性能,从而适应新任务。DeepMind在七项不同难度的灵巧操作任务上进行测试,包括拉开午餐盒拉链、画卡片和倒沙拉酱等,使用少于100个示例就能展现出良好的任务适应性能

跨具身适应性强
该模型可以适应不同的机器人。训练时采用的是ALOHA机器人,但实验表明能够进一步将其调整用于双臂Franka FR3机器人和Apptronik的Apollo人形机器人。在双臂机器人Franka上,能执行通用指令,完成诸如折叠连衣裙之类的灵巧任务或工业皮带装配任务;在Apollo人形机器人上也能有较好的表现。

对开发者的支持
对于开发者,谷歌将发布Gemini Robotics SDK,可用于轻松评估Gemini Robotics On-Device在其任务和环境中的表现。开发者还可使用该SDK在DeepMind的MuJoCo物理模拟器中测试该模型,并快速将其适应到新领域,只需50到100个演示即可。

市场影响
消息发布后,AI人工智能ETF(512930)、消费电子ETF(561600)盘中双双涨近1%。截至2025年6月25日10:14,中证消费电子主题指数(931494)上涨0.32%,消费电子ETF(561600)上涨0.76%;中证人工智能主题指数也受到一定影响。这显示出市场对该模型发布的积极反应,也体现了其在科技领域的重要影响力
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
167724
金币
273165
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38174(小时)
注册时间: 2008-10-01
最后登录: 2025-07-12
只看该作者 板凳  发表于: 06-25
谷歌DeepMind于6月24日发布的Gemini Robotics On-Device模型,确实是一个重要的进步,它为机器人技术领域带来了几个关键的优势:

1. 自主性和灵活性:该模型允许机器人在没有云端连接的情况下运行,极大地提高了机器人的自主性和灵活性。

2. 隐私和安全性:由于数据处理完全在本地进行,这减少了将敏感数据(如家庭或医疗环境中的视觉数据)上传至云端的需求,从而增强了隐私保护和数据安全。

3. 多模态理解能力:Gemini Robotics On-Device模型是一个集成的视觉语言动作(VLA)模型,能够处理视觉输入、自然语言指令和动作输出,这种多模态理解能力使得机器人能够对全新的指令和场景进行泛化理解和响应。

4. 泛化能力:与需要云端支持的模型相比,On-Device模型在多项泛化能力基准测试中的表现非常接近,甚至在某些情况下优于之前的本地化模型。

5. 可适应性和通用性:谷歌强调,这是其首个开放给开发者进行微调的机器人VLA模型,开发者可以根据特定需求对模型进行定制化训练。

6. 跨平台通用性:该模型不仅在谷歌自家的ALOHA双臂机器人上进行训练,还成功适配到了多种第三方机器人上,显示出良好的跨平台通用性。

7. 安全性考量:谷歌建议开发者采用多层安全策略,包括利用Gemini Live API的安全层进行语义和内容审查,以及在硬件层面部署安全控制器,以确保机器人的行为安全、可控、可预测。

8. 受信任的测试者计划:谷歌启动了“受信任的测试者计划”,邀请开发者和研究人员使用Gemini Robotics On-Device模型及其软件开发工具包,进一步推动该技术的发展和应用。

总的来说,Gemini Robotics On-Device模型的发布标志着机器人技术向更高级别的自主性和智能性的迈进,同时也为未来的机器人应用提供了更多可能性。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个