Diterbitkan pada

Kemampuan Humanoid: Mengapa Robot Kami Meraih 100% Kesuksesan dalam Memetik Buah tetapi 0% dalam Menyusun Balok.

Penulis

Beberapa pembelajaran setelah melatih model visi-bahasa-aksi untuk manipulasi humanoid:

The Masalah Ketergantungan Kamera: Model yang dilatih pada sudut pandang tetap gagal secara tragis dengan pergeseran kamera 30°. Ini bukan generalisasi yang buruk - ini adalah ilusi optik pada tingkat jaringan saraf.

The Jurang Inkarnasi: Menggunakan Apple Vision Pro untuk teleoperasi, operator kami membutuhkan 12 upaya untuk mengambil apel. Mengapa? Tidak ada persepsi kedalaman. Tidak ada umpan balik gaya. Jika manusia kesulitan dengan kendala ini, bayangkan apa yang kita minta AI untuk lakukan.

⚡ Bottleneck Inferensi: VLMs berjalan pada ~5Hz. Kontrol robot yang halus membutuhkan minimal 20Hz. Pendekatan arsitektur ganda (Sistem 1 untuk kontrol cepat, Sistem 2 untuk penalaran) membantu tetapi memperkenalkan diskontinuitas trajektori.

Perbedaan antara keberhasilan kami dalam mengambil buah dan kegagalan kami dalam menumpuk balok adalah mengungkapkan: Fruit picking: Satu objek, toleransi genggaman besar, keadaan sukses terminal Block stacking: Tugas presisi berurutan, penempatan sensitif gaya, propagasi kesalahan kumulatif

Antara "ide yang hebat" dan "robot yang berfungsi": 3 minggu mengonversi data teleop Unitree ke format LeRobot

Custom jembatan antara alat NVIDIA sendiri (IsaacLab tidak secara asli antarmuka dengan GR00T)

Vacuum Umpan Balik Gaya: Tanpa indera taktil, menggenggam menjadi biner (kesuksesan/kegagalan) daripada penyesuaian kontinu.

Kebutaan Kedalaman: Model RGB-saja saat ini kekurangan visi stereo yang diambil manusia untuk granted. Menambahkan RGB-D bisa menjadi transformatif.

Dan jangan lupa - kesenjangan sim2real: COSMOS + IsaacSim bisa secara potensial menghasilkan 20-100x data pelatihan, tetapi transfer sim2real tetap menantang.

Setiap demo humanoid yang viral mewakili ratusan upaya gagal dan kondisi yang dikontrol dengan hati-hati. Ini bukan penipuan - ini adalah perbedaan antara kemungkinan dan keandalan.

Jalan dari demo ke penerapan tidak hanya panjang - tetapi dipenuhi dengan tantangan mendasar yang hanya melemparkan komputasi tidak akan menyelesaikan. Teknik yang halus, terhubung adalah nama permainan.... Dan itu adalah alasan mengapa ini layak dilakukan.

Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.

ABNAsia.org

© ABN ASIA