Xuất bản vào

Sự Linh Hoạt Hình Người: Tại Sao Robot Của Chúng Tôi Đạt 100% Thành Công Khi Thu Hoạch Trái Cây Nhưng 0% Khi Xếp Khối.

Tác giả

Một số bài học sau khi đào tạo các mô hình tầm nhìn-ngôn ngữ-hành động cho việc điều khiển humanoid:

The Camera Dependency Problem: Các mô hình được đào tạo trên các góc nhìn cố định thất bại thảm hại với sự thay đổi 30° của camera. Đó không phải là sự khái quát hóa kém - đó là ảo giác quang học ở mức mạng nơ-ron.

The Embodiment Gap: Sử dụng Apple Vision Pro để điều khiển từ xa, các vận hành viên của chúng tôi cần 12 lần thử để nhặt một quả táo. Tại sao? Không có nhận thức về độ sâu. Không có phản hồi lực. Nếu con người gặp khó khăn với những hạn chế này, hãy tưởng tượng những gì chúng tôi đang yêu cầu AI làm.

Inference Bottleneck: VLM chạy ở tốc độ ~5Hz. Điều khiển robot mịn cần tối thiểu 20Hz. Phương pháp kiến trúc kép (Hệ thống 1 cho điều khiển nhanh, Hệ thống 2 cho lý luận) giúp nhưng giới thiệu sự gián đoạn của đường đi.

Sự khác biệt giữa thành công của chúng tôi trong việc nhặt trái cây và thất bại trong việc xếp khối là tiết lộ: Fruit picking: Đối tượng đơn, dung sai握 lớn, trạng thái thành công cuối cùng Block stacking: Nhiệm vụ chính xác tuần tự, đặt lực nhạy cảm, truyền播 lỗi tích lũy

Giữa "ý tưởng tuyệt vời" và "rô-bốt hoạt động": 3 tuần chuyển đổi dữ liệu điều khiển từ xa Unitree sang định dạng LeRobot

Cầu nối tùy chỉnh giữa các công cụ của NVIDIA (IsaacLab không giao tiếp tự nhiên với GR00T)

Voids Phản hồi Lực: Không có cảm biến xúc giác, việc nắm bắt trở thành nhị phân (thành công/thất bại) chứ không phải điều chỉnh liên tục.

Mù độ sâu: Các mô hình chỉ RGB hiện tại thiếu tầm nhìn stereo mà con người coi là đương nhiên. Thêm RGB-D có thể là chuyển đổi.

Và ít nhất chúng ta không quên - khoảng cách sim2real: COSMOS + IsaacSim có thể tạo ra 20-100 lần dữ liệu đào tạo, nhưng việc chuyển sim2real vẫn còn thách thức.

Mỗi bản demo humanoid lan truyền đại diện cho hàng trăm lần thử thất bại và điều kiện được kiểm soát cẩn thận. Điều này không phải là gian lận - đó là sự khác biệt giữa khả năng và độ tin cậy.

Con đường từ demo đến triển khai không chỉ dài - nó được lấp đầy với những thách thức cơ bản mà việc ném tính toán vào sẽ không giải quyết. Các kỹ thuật tinh vi, liên kết là tên của trò chơi…. Và đó chính xác là lý do tại sao nó đáng làm.

TÁC GIẢ

Về ABN Asia: Ai Base Network (ABN), ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA