本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。