查看完整版本: [-- 一文看清VLA技术路线与未来趋势 [4P] --]

武当休闲山庄 -> 数码讨论 -> 一文看清VLA技术路线与未来趋势 [4P] [打印本页] 登录 -> 注册 -> 回复主题 -> 发表主题

姜谷粉丝 2025-07-25 11:27
用户被禁言,该主题自动屏蔽!

姜谷粉丝 2025-07-25 11:28
用户被禁言,该主题自动屏蔽!

jjybzxw 2025-07-25 18:21
VLA 模型与 Action Token 视角

VLA 模型(Vision-Language-Action Models)是当前具身智能研究的前沿方向之一。这类模型旨在将基础模型在数字世界中的智能延伸到物理世界,通过处理视觉和语言输入,生成实时动作输出,从而实现具体的、具身的任务执行能力。

VLA 统一框架描述了不同 VLA 模型共同遵循的通用架构:即视觉和语言输入经过一系列功能模块(VLA modules),逐层处理并生成更具体、可执行的动作信息(action token),最终转化为实际的动作输出。

Action Token则是不同 VLA modules 之间传递的动作表示,承载具体动作信息。可以理解为 VLA 模型生成的“动作语言”,用于明确不同模块间的沟通内容与执行目标。

八种 Action Token 的梳理分析

1. Language Description(语言描述)
   - 形式:用自然语言的形式描述要完成的动作。
   - 分类:按照描述颗粒度主要分为子任务级别的 language plan(如“端起茶杯”)和原子动作级别的 language motion(如“手往前伸”)。
   - 优势:
     - 与基础模型高度兼容,语言描述与 LLM/VLM 的原生输出空间一致。
     - 丰富的训练数据支持,借助海量图文与操作数据。
     - 更强的长时规划能力,分层的语言指令有助于处理长链路、多阶段任务。
     - 高度可解释性与可控性,自然语言表达易于人类理解和干预。
   - 挑战:表达精度不足与推理时延。

2. Code(代码)
   - 形式:用代码的形式表达任务的实现逻辑,包含循环、分支等逻辑控制和机器人感知、控制的 API 调用。
   - 优势:
     - 代码是人类与计算机之间最直接也最高效的交流方式。
     - 结构清晰、具备可读性与可执行性。
   - 挑战:构建完备的感知与动作函数库。

3. Affordance(可操作性)
   - 形式:描述物体的功能和可操作性,如“茶壶可以倒水”。
   - 优势:
     - 有助于理解环境中的物体及其潜在用途。
     - 可以结合 trajectory 和 goal state 提升生成精度。
   - 挑战:需要高质量的视觉输入和环境理解。

4. Trajectory(轨迹)
   - 形式:描述动作的运动轨迹,如“手从这里移动到那里”。
   - 优势:
     - 提供精确的动作路径,适用于需要高精度控制的任务。
     - 可以与其他 action token 结合使用,提高动作的准确性和效率。
   - 挑战:需要复杂的运动规划算法。

5. Goal State(目标状态)
   - 形式:描述任务完成后的目标状态,如“茶杯里有水”。
   - 优势:
     - 提供明确的任务目标,有助于指导动作生成。
     - 可以结合 trajectory 和 affordance 提升生成精度。
   - 挑战:需要准确的目标状态预测算法。

6. Latent Representation(潜在表示)
   - 形式:通过潜在变量表示动作,如“执行某个动作”。
   - 优势:
     - 具有高度的抽象性和灵活性。
     - 可以捕捉复杂的动作模式。
   - 挑战:训练中面临粒度、语义覆盖和任务对齐等挑战。

7. Raw Action(原始动作)
   - 形式:直接生成机器人可以执行的原始动作序列,如“电机转动”。
   - 优势:
     - 最适合端到端学习,可以直接从输入生成输出。
     - 能力高度依赖数据。
   - 挑战:需要大量的高质量训练数据。

8. Reasoning(推理)
   - 形式:通过推理生成动作,如“根据当前状态推理下一步动作”。
   - 优势:
     - 可以作为“元 token”增强其他 token 的生成。
     - 支持任务适应性推理计算。
   - 挑战:需要复杂的推理算法和大量的计算资源。

VLA 架构趋势

未来的 VLA 模型很可能采用分层架构:
- 顶层:通过 language description 和 code 实现长程规划与逻辑控制。
- 下层:在近期内预计将使用 goal state 的视频预测、trajectory 的流建模以及 affordance 的三维交互预测紧密结合,形成中间动作表示,最终映射为 raw action。长期来看,下层将演化为完全端到端的方式,直接从子任务级输入预测 raw action。
- 贯穿整个 VLA 模型:reasoning 按需贯穿整个 VLA 模型,增强 action token 生成。

安全与对齐

当前的 VLA 研究主要关注模型能力,未来必须更加重视安全性与人类对齐。这包括确保模型的行为符合人类的道德和法律标准,避免潜在的风险和危害。


查看完整版本: [-- 一文看清VLA技术路线与未来趋势 [4P] --] [-- top --]


Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled


沪ICP备:05041533号