Zero-Shot & Few-Shot Learning Trong Robot: Máy Học Kỹ Năng Mới Mà Không Cần Hàng Triệu Mẫu
Thách thức lớn nhất của robot AI không phải là "robot có thể làm gì" mà là "robot mất bao lâu để học làm điều đó". Một hệ thống robot truyền thống cần hàng triệu ví dụ và hàng tuần training để học một tác vụ mới — hoàn toàn không thực tế cho môi trường thực.
Zero-shot learning (học không cần ví dụ) và few-shot learning (học từ vài ví dụ) đang thay đổi phương trình này — và đây là lý do tại sao chúng quan trọng hơn bất kỳ robot mới nào ra mắt năm nay.
Định Nghĩa: Zero-Shot vs Few-Shot vs Standard Learning
- Standard learning: Robot cần 10.000–1.000.000 ví dụ mới learn được tác vụ. Ví dụ: training Spot để leo cầu thang cần hàng triệu bước simulation + thực tế
- Few-shot learning (N-shot, N = 1–20): Robot học tác vụ từ N ví dụ. Ví dụ: demo tay người cầm cốc 5 lần → robot học cách cầm cốc đó
- Zero-shot learning: Robot thực hiện tác vụ chưa từng gặp, chỉ dựa trên mô tả ngôn ngữ hoặc hình ảnh tham chiếu. Ví dụ: nói "lấy cái bình hoa màu xanh" và robot thực hiện dù chưa thấy bình hoa trong training
Tại Sao Đây Là Vấn Đề Quan Trọng Nhất Của Robotics?
Thực tế triển khai robot trong nhà máy hay gia đình cho thấy: môi trường thực luôn có những tình huống chưa từng gặp trong training. Một hộp linh kiện mới, một vị trí bàn ghế khác, ánh sáng thay đổi — robot "brittleness" (dễ vỡ trận) là lý do lớn nhất khiến robot không được triển khai rộng rãi ngoài môi trường cực kỳ có cấu trúc.
Zero-shot và few-shot generalization là điều kiện tiên quyết để robot thực sự hoạt động trong thế giới mở — không phải là tính năng "nice to have" mà là yêu cầu bắt buộc.
MAML (Model-Agnostic Meta-Learning): Học Cách Học
Được giới thiệu bởi Chelsea Finn (Stanford, 2017), MAML là framework meta-learning nền tảng nhất cho robotics:
Thay vì train model để giỏi một tác vụ cụ thể, MAML train model để nhanh chóng thích nghi với tác vụ mới — "learn to learn". Kết quả: model có thể học tác vụ mới chỉ từ 5–10 gradient steps thay vì hàng nghìn.
Ứng dụng trong robotics:
- Robot arm học grasping object mới từ 5 demo trong 10 phút thay vì cần dataset lớn
- Locomotion robot thích nghi với địa hình mới (cát, đá, băng) sau vài bước thử nghiệm
- RL-based navigation: robot học route mới trong nhà máy từ 1–2 lần dẫn đường
CLIPort (Google + CMU): Zero-Shot Manipulation Từ Ngôn Ngữ
CLIPort kết hợp CLIP (vision-language model của OpenAI) với Transporter Network để robot thực hiện manipulation task từ lệnh ngôn ngữ tự nhiên — zero-shot:
- Lệnh: "xếp khối đỏ vào hộp xanh" → CLIPort phân tích ngôn ngữ, tìm vị trí vật thể qua CLIP, lập kế hoạch pick-and-place
- Generalize tốt sang object chưa gặp trong training — miễn là CLIP đã "biết" object đó qua pre-training trên internet
- Hiệu suất: 74% thành công trên các tác vụ zero-shot trong test environment
DreamerV3: World Model Cho Few-Shot RL
DreamerV3 (Google DeepMind, 2023) là bước tiến lớn trong few-shot reinforcement learning cho robot:
- Robot học "world model" — mô hình nội tại về cách thế giới phản ứng với hành động của nó
- Thay vì thử nghiệm thực tế hàng nghìn lần, robot "tưởng tượng" (imagine) kết quả trong world model và học từ đó
- DreamerV3 đã đạt điểm số con người trong nhiều Atari game chỉ từ 200K frames — so với 50M frames của DQN truyền thống
- Ứng dụng robot: học kỹ năng mới trong simulation với few-shot real-world adaptation
Imitation Learning + Few-Shot: Học Từ Demo Người
Hướng đi thực tế nhất hiện nay kết hợp few-shot learning với imitation learning:
| Framework | Công ty/Lab | Số demo cần | Kết quả |
|---|---|---|---|
| ACT (Action Chunking with Transformers) | Stanford (Tony Zhao) | 50–100 demo | Gấp origami, lắp pin từ demo người |
| Diffusion Policy | Columbia + MIT | 50–200 demo | Generalize tốt sang variant chưa gặp |
| π0 (pi-zero) | Physical Intelligence | 10–50 demo (fine-tune) | Pre-trained foundation model + few-shot fine-tune |
| RT-2 few-shot | Google DeepMind | 0 demo (zero-shot từ ngôn ngữ) | Emergent skills từ web pre-training |
Thách Thức Còn Tồn Tại
- Distribution shift: Zero-shot generalize tốt trong lab nhưng thường thất bại khi môi trường thực khác nhiều so với training distribution
- Physical safety: Few-shot learning vẫn có thể sinh ra hành động nguy hiểm khi gặp tình huống mới — cần safety constraint độc lập
- Long-horizon task: Zero-shot với task 20+ bước vẫn là thách thức lớn — hiện tại giới hạn ở ~5–10 bước
Theo dõi blog AGIBOT để cập nhật các nghiên cứu robot mới nhất. Website đang trong giai đoạn thử nghiệm.