ハンドロイドの器用さ：私たちのロボットが果物の収穫では100％の成功を収めたのに、ブロック積み上げでは0％だった理由。

人形ロボットの操作のためのビジョン言語アクションモデルをトレーニングした後のいくつかの学び：

📍 カメラ依存問題：固定された視点でトレーニングされたモデルは、30°のカメラシフトで壊滅的な失敗をします。これは、汎化の悪さではありません。ニューラルネットワークレベルの光学的錯覚です。

🤖 埋め込みギャップ：Apple Vision Proを遠隔操作に使用した場合、オペレーターはリンゴを拾うために12回の試行を必要としました。なぜでしょう？深度感覚がないからです。力フィードバックがないからです。如果人間がこれらの制約で苦労するなら、AIに何を求めているのか想像してみてください。

⚡ 推論ボトルネック：VLMは約5Hzで実行されます。スムーズなロボット制御には最低20Hzが必要です。デュアルアーキテクチャアプローチ（System 1を高速制御に、System 2を推論に使用）が役立つですが、軌道の不連続性を導入します。

私たちの果物を拾う成功とブロックを積む失敗の違いは明らかです： ✅ 果物を拾う：単一のオブジェクト、大きな把持容差、終端成功状態 ❌ ブロックを積む：順序的な精密タスク、力感覚の配置、累積エラープロパゲーション

「素晴らしいアイデア」と「動くロボット」の間： ➡️ ユニットリーのテレオペレーションデータをLeRobot形式に変換するのに3週間 ➡️ NVIDIAの独自ツール（IsaacLabはGR00Tとネイティブにインターフェースしない）間のカスタムブリッジ ➡️ フォースフィードバックの空白：タクティルセンシングがない場合、把持は二値（成功/失敗）ではなく連続的な調整になります。 ➡️ デプスブラインド：現在のRGBのみのモデルは、人間が当然のように受け取るステレオビジョンを欠いています。RGB-Dを追加することで変革的なものになる可能性があります。 ➡️ そして、シミュレーションと現実のギャップを忘れないでください：COSMOS + IsaacSimは、20〜100倍のトレーニングデータを生成する可能性がありますが、シミュレーションから現実への転送は依然として課題です。

すべてのウイルスのような人形ロボットデモは、数百回の失敗した試行と慎重に制御された条件を表しています。これは、詐欺ではありません。可能性と信頼性の違いです。

デモからデプロイまでの道のりは、長いだけではなく、単純にコンピューティングパワーを投入することで解決できない基本的な課題でいっぱいです。繊細で相互に接続された技術がゲームの名前です……そして、それが正にそれを行う価値がある理由です。

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。私ちの取り組み: より速く。より良い。より信頼性が高くなります。ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書（RFP）をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。