人形灵活性：为什么我们的机器人在水果采摘中取得100%的成功，但在积木堆叠中却只有0%的成功率。

训练视觉语言动作模型用于人形机器人操作的一些经验教训：

📍 相机依赖问题：在固定视角上训练的模型在相机位置发生30°变化时会灾难性地失败。这不是一般化能力差的问题，而是神经网络层面的视觉错觉。

🤖 体现差距：使用Apple Vision Pro进行远程操作，我们的操作员需要12次尝试才能捡起一个苹果。为什么？没有深度感知，没有力反馈。如果人类在这些约束下挣扎，想象一下我们要求AI做什么。

⚡ 推理瓶颈：VLM以每秒约5帧运行。平滑的机器人控制需要至少20Hz的速度。双架构方法（系统1用于快速控制，系统2用于推理）有所帮助，但引入了轨迹不连续性。

我们水果拾取成功和积木堆叠失败之间的差异是显而易见的： ✅ 水果拾取：单个物体，大抓取容忍度，终止成功状态 ❌ 积木堆叠：顺序精确任务，力敏感放置，累积错误传播

从“好主意”到“工作机器人”之间： ➡️ 3周时间将Unitree远程操作数据转换为LeRobot格式

➡️ 自定义桥接NVIDIA自己的工具（IsaacLab不支持GR00T）

➡️ 力反馈真空：没有触觉感知，抓取成为二元的（成功/失败）而不是连续的调整。

➡️ 深度失明：当前仅RGB的模型缺乏人类所拥有的立体视觉。添加RGB-D可能会带来转变。

➡️ 让我们不要忘记 - sim2real差距：COSMOS + IsaacSim可能会产生20-100倍的训练数据，但sim2real转移仍然具有挑战性。

每个病毒式的人形机器人演示代表着数百次失败的尝试和精心控制的条件。这不是欺诈 - 这是可能性和可靠性之间的差异。

从演示到部署的道路不仅漫长 - 而且充满了根本性的挑战，仅仅增加计算资源是无法解决的。细致入微、相互关联的技术才是关键……这就是为什么它值得做的原因。

请注意，中文版本是由 AI 辅助翻译的，因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立，他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务，我们帮助企业提升水平，走向全球舞台。我们的承诺：更快。更好。更可靠。在大多数情况下：也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案，还是想向我们发送招标要求（RFPs），都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。