| jjybzxw |
2025-07-25 18:21 |
VLA 模型与 Action Token 视角 VLA 模型(Vision-Language-Action Models)是当前具身智能研究的前沿方向之一。这类模型旨在将基础模型在数字世界中的智能延伸到物理世界,通过处理视觉和语言输入,生成实时动作输出,从而实现具体的、具身的任务执行能力。 VLA 统一框架描述了不同 VLA 模型共同遵循的通用架构:即视觉和语言输入经过一系列功能模块(VLA modules),逐层处理并生成更具体、可执行的动作信息(action token),最终转化为实际的动作输出。 Action Token则是不同 VLA modules 之间传递的动作表示,承载具体动作信息。可以理解为 VLA 模型生成的“动作语言”,用于明确不同模块间的沟通内容与执行目标。 八种 Action Token 的梳理分析 1. Language Description(语言描述) - 形式:用自然语言的形式描述要完成的动作。 - 分类:按照描述颗粒度主要分为子任务级别的 language plan(如“端起茶杯”)和原子动作级别的 language motion(如“手往前伸”)。 - 优势: - 与基础模型高度兼容,语言描述与 LLM/VLM 的原生输出空间一致。 - 丰富的训练数据支持,借助海量图文与操作数据。 - 更强的长时规划能力,分层的语言指令有助于处理长链路、多阶段任务。 - 高度可解释性与可控性,自然语言表达易于人类理解和干预。 - 挑战:表达精度不足与推理时延。 2. Code(代码) - 形式:用代码的形式表达任务的实现逻辑,包含循环、分支等逻辑控制和机器人感知、控制的 API 调用。 - 优势: - 代码是人类与计算机之间最直接也最高效的交流方式。 - 结构清晰、具备可读性与可执行性。 - 挑战:构建完备的感知与动作函数库。 3. Affordance(可操作性) - 形式:描述物体的功能和可操作性,如“茶壶可以倒水”。 - 优势: - 有助于理解环境中的物体及其潜在用途。 - 可以结合 trajectory 和 goal state 提升生成精度。 - 挑战:需要高质量的视觉输入和环境理解。 4. Trajectory(轨迹) - 形式:描述动作的运动轨迹,如“手从这里移动到那里”。 - 优势: - 提供精确的动作路径,适用于需要高精度控制的任务。 - 可以与其他 action token 结合使用,提高动作的准确性和效率。 - 挑战:需要复杂的运动规划算法。 5. Goal State(目标状态) - 形式:描述任务完成后的目标状态,如“茶杯里有水”。 - 优势: - 提供明确的任务目标,有助于指导动作生成。 - 可以结合 trajectory 和 affordance 提升生成精度。 - 挑战:需要准确的目标状态预测算法。 6. Latent Representation(潜在表示) - 形式:通过潜在变量表示动作,如“执行某个动作”。 - 优势: - 具有高度的抽象性和灵活性。 - 可以捕捉复杂的动作模式。 - 挑战:训练中面临粒度、语义覆盖和任务对齐等挑战。 7. Raw Action(原始动作) - 形式:直接生成机器人可以执行的原始动作序列,如“电机转动”。 - 优势: - 最适合端到端学习,可以直接从输入生成输出。 - 能力高度依赖数据。 - 挑战:需要大量的高质量训练数据。 8. Reasoning(推理) - 形式:通过推理生成动作,如“根据当前状态推理下一步动作”。 - 优势: - 可以作为“元 token”增强其他 token 的生成。 - 支持任务适应性推理计算。 - 挑战:需要复杂的推理算法和大量的计算资源。 VLA 架构趋势 未来的 VLA 模型很可能采用分层架构: - 顶层:通过 language description 和 code 实现长程规划与逻辑控制。 - 下层:在近期内预计将使用 goal state 的视频预测、trajectory 的流建模以及 affordance 的三维交互预测紧密结合,形成中间动作表示,最终映射为 raw action。长期来看,下层将演化为完全端到端的方式,直接从子任务级输入预测 raw action。 - 贯穿整个 VLA 模型:reasoning 按需贯穿整个 VLA 模型,增强 action token 生成。 安全与对齐 当前的 VLA 研究主要关注模型能力,未来必须更加重视安全性与人类对齐。这包括确保模型的行为符合人类的道德和法律标准,避免潜在的风险和危害。 |
|