武当休闲山庄 - 稳定,和谐,人性化的中文社区

查看完整版本: [-- 一文看清VLA技术路线与未来趋势 [4P] --]

武当休闲山庄 -> 数码讨论 -> 一文看清VLA技术路线与未来趋势 [4P] [打印本页]

登录 -> 注册 -> 回复主题 -> 发表主题

姜谷粉丝	2025-07-25 11:27
用户被禁言,该主题自动屏蔽!

姜谷粉丝	2025-07-25 11:28
用户被禁言,该主题自动屏蔽!

jjybzxw

2025-07-25 18:21

VLA 模型与 Action Token 视角

VLA 模型（Vision-Language-Action Models）是当前具身智能研究的前沿方向之一。这类模型旨在将基础模型在数字世界中的智能延伸到物理世界，通过处理视觉和语言输入，生成实时动作输出，从而实现具体的、具身的任务执行能力。

VLA 统一框架描述了不同 VLA 模型共同遵循的通用架构：即视觉和语言输入经过一系列功能模块（VLA modules），逐层处理并生成更具体、可执行的动作信息（action token），最终转化为实际的动作输出。

Action Token则是不同 VLA modules 之间传递的动作表示，承载具体动作信息。可以理解为 VLA 模型生成的“动作语言”，用于明确不同模块间的沟通内容与执行目标。

八种 Action Token 的梳理分析

1. Language Description（语言描述）
   - 形式：用自然语言的形式描述要完成的动作。
   - 分类：按照描述颗粒度主要分为子任务级别的 language plan（如“端起茶杯”）和原子动作级别的 language motion（如“手往前伸”）。
   - 优势：
     - 与基础模型高度兼容，语言描述与 LLM/VLM 的原生输出空间一致。
     - 丰富的训练数据支持，借助海量图文与操作数据。
     - 更强的长时规划能力，分层的语言指令有助于处理长链路、多阶段任务。
     - 高度可解释性与可控性，自然语言表达易于人类理解和干预。
   - 挑战：表达精度不足与推理时延。

2. Code（代码）
   - 形式：用代码的形式表达任务的实现逻辑，包含循环、分支等逻辑控制和机器人感知、控制的 API 调用。
   - 优势：
     - 代码是人类与计算机之间最直接也最高效的交流方式。
     - 结构清晰、具备可读性与可执行性。
   - 挑战：构建完备的感知与动作函数库。

3. Affordance（可操作性）
   - 形式：描述物体的功能和可操作性，如“茶壶可以倒水”。
   - 优势：
     - 有助于理解环境中的物体及其潜在用途。
     - 可以结合 trajectory 和 goal state 提升生成精度。
   - 挑战：需要高质量的视觉输入和环境理解。

4. Trajectory（轨迹）
   - 形式：描述动作的运动轨迹，如“手从这里移动到那里”。
   - 优势：
     - 提供精确的动作路径，适用于需要高精度控制的任务。
     - 可以与其他 action token 结合使用，提高动作的准确性和效率。
   - 挑战：需要复杂的运动规划算法。

5. Goal State（目标状态）
   - 形式：描述任务完成后的目标状态，如“茶杯里有水”。
   - 优势：
     - 提供明确的任务目标，有助于指导动作生成。
     - 可以结合 trajectory 和 affordance 提升生成精度。
   - 挑战：需要准确的目标状态预测算法。

6. Latent Representation（潜在表示）
   - 形式：通过潜在变量表示动作，如“执行某个动作”。
   - 优势：
     - 具有高度的抽象性和灵活性。
     - 可以捕捉复杂的动作模式。
   - 挑战：训练中面临粒度、语义覆盖和任务对齐等挑战。

7. Raw Action（原始动作）
   - 形式：直接生成机器人可以执行的原始动作序列，如“电机转动”。
   - 优势：
     - 最适合端到端学习，可以直接从输入生成输出。
     - 能力高度依赖数据。
   - 挑战：需要大量的高质量训练数据。

8. Reasoning（推理）
   - 形式：通过推理生成动作，如“根据当前状态推理下一步动作”。
   - 优势：
     - 可以作为“元 token”增强其他 token 的生成。
     - 支持任务适应性推理计算。
   - 挑战：需要复杂的推理算法和大量的计算资源。

VLA 架构趋势

未来的 VLA 模型很可能采用分层架构：
- 顶层：通过 language description 和 code 实现长程规划与逻辑控制。
- 下层：在近期内预计将使用 goal state 的视频预测、trajectory 的流建模以及 affordance 的三维交互预测紧密结合，形成中间动作表示，最终映射为 raw action。长期来看，下层将演化为完全端到端的方式，直接从子任务级输入预测 raw action。
- 贯穿整个 VLA 模型：reasoning 按需贯穿整个 VLA 模型，增强 action token 生成。

安全与对齐

当前的 VLA 研究主要关注模型能力，未来必须更加重视安全性与人类对齐。这包括确保模型的行为符合人类的道德和法律标准，避免潜在的风险和危害。

查看完整版本: [-- 一文看清VLA技术路线与未来趋势 [4P] --] [-- top --]

Powered by www.wdsz.net v8.7.1 Code ©2005-2018www.wdsz.net
Gzip enabled