Zero-Shot & Few-Shot Learning Trong Robot: Máy Học Kỹ Năng Mới Mà Không Cần Hàng Triệu Mẫu
Blog AGIBOT

Zero-Shot & Few-Shot Learning Trong Robot: Máy Học Kỹ Năng Mới Mà Không Cần Hàng Triệu Mẫu

26/05/2026 AGIBOT

Thách thức lớn nhất của robot AI không phải là "robot có thể làm gì" mà là "robot mất bao lâu để học làm điều đó". Một hệ thống robot truyền thống cần hàng triệu ví dụ và hàng tuần training để học một tác vụ mới — hoàn toàn không thực tế cho môi trường thực.

Zero-shot learning (học không cần ví dụ) và few-shot learning (học từ vài ví dụ) đang thay đổi phương trình này — và đây là lý do tại sao chúng quan trọng hơn bất kỳ robot mới nào ra mắt năm nay.

Định Nghĩa: Zero-Shot vs Few-Shot vs Standard Learning

  • Standard learning: Robot cần 10.000–1.000.000 ví dụ mới learn được tác vụ. Ví dụ: training Spot để leo cầu thang cần hàng triệu bước simulation + thực tế
  • Few-shot learning (N-shot, N = 1–20): Robot học tác vụ từ N ví dụ. Ví dụ: demo tay người cầm cốc 5 lần → robot học cách cầm cốc đó
  • Zero-shot learning: Robot thực hiện tác vụ chưa từng gặp, chỉ dựa trên mô tả ngôn ngữ hoặc hình ảnh tham chiếu. Ví dụ: nói "lấy cái bình hoa màu xanh" và robot thực hiện dù chưa thấy bình hoa trong training

Tại Sao Đây Là Vấn Đề Quan Trọng Nhất Của Robotics?

Thực tế triển khai robot trong nhà máy hay gia đình cho thấy: môi trường thực luôn có những tình huống chưa từng gặp trong training. Một hộp linh kiện mới, một vị trí bàn ghế khác, ánh sáng thay đổi — robot "brittleness" (dễ vỡ trận) là lý do lớn nhất khiến robot không được triển khai rộng rãi ngoài môi trường cực kỳ có cấu trúc.

Zero-shot và few-shot generalization là điều kiện tiên quyết để robot thực sự hoạt động trong thế giới mở — không phải là tính năng "nice to have" mà là yêu cầu bắt buộc.

MAML (Model-Agnostic Meta-Learning): Học Cách Học

Được giới thiệu bởi Chelsea Finn (Stanford, 2017), MAML là framework meta-learning nền tảng nhất cho robotics:

Thay vì train model để giỏi một tác vụ cụ thể, MAML train model để nhanh chóng thích nghi với tác vụ mới — "learn to learn". Kết quả: model có thể học tác vụ mới chỉ từ 5–10 gradient steps thay vì hàng nghìn.

Ứng dụng trong robotics:

  • Robot arm học grasping object mới từ 5 demo trong 10 phút thay vì cần dataset lớn
  • Locomotion robot thích nghi với địa hình mới (cát, đá, băng) sau vài bước thử nghiệm
  • RL-based navigation: robot học route mới trong nhà máy từ 1–2 lần dẫn đường

CLIPort (Google + CMU): Zero-Shot Manipulation Từ Ngôn Ngữ

CLIPort kết hợp CLIP (vision-language model của OpenAI) với Transporter Network để robot thực hiện manipulation task từ lệnh ngôn ngữ tự nhiên — zero-shot:

  • Lệnh: "xếp khối đỏ vào hộp xanh" → CLIPort phân tích ngôn ngữ, tìm vị trí vật thể qua CLIP, lập kế hoạch pick-and-place
  • Generalize tốt sang object chưa gặp trong training — miễn là CLIP đã "biết" object đó qua pre-training trên internet
  • Hiệu suất: 74% thành công trên các tác vụ zero-shot trong test environment

DreamerV3: World Model Cho Few-Shot RL

DreamerV3 (Google DeepMind, 2023) là bước tiến lớn trong few-shot reinforcement learning cho robot:

  • Robot học "world model" — mô hình nội tại về cách thế giới phản ứng với hành động của nó
  • Thay vì thử nghiệm thực tế hàng nghìn lần, robot "tưởng tượng" (imagine) kết quả trong world model và học từ đó
  • DreamerV3 đã đạt điểm số con người trong nhiều Atari game chỉ từ 200K frames — so với 50M frames của DQN truyền thống
  • Ứng dụng robot: học kỹ năng mới trong simulation với few-shot real-world adaptation

Imitation Learning + Few-Shot: Học Từ Demo Người

Hướng đi thực tế nhất hiện nay kết hợp few-shot learning với imitation learning:

Framework Công ty/Lab Số demo cần Kết quả
ACT (Action Chunking with Transformers)Stanford (Tony Zhao)50–100 demoGấp origami, lắp pin từ demo người
Diffusion PolicyColumbia + MIT50–200 demoGeneralize tốt sang variant chưa gặp
π0 (pi-zero)Physical Intelligence10–50 demo (fine-tune)Pre-trained foundation model + few-shot fine-tune
RT-2 few-shotGoogle DeepMind0 demo (zero-shot từ ngôn ngữ)Emergent skills từ web pre-training

Thách Thức Còn Tồn Tại

  • Distribution shift: Zero-shot generalize tốt trong lab nhưng thường thất bại khi môi trường thực khác nhiều so với training distribution
  • Physical safety: Few-shot learning vẫn có thể sinh ra hành động nguy hiểm khi gặp tình huống mới — cần safety constraint độc lập
  • Long-horizon task: Zero-shot với task 20+ bước vẫn là thách thức lớn — hiện tại giới hạn ở ~5–10 bước

Theo dõi blog AGIBOT để cập nhật các nghiên cứu robot mới nhất. Website đang trong giai đoạn thử nghiệm.

Chia sẻ bài viết

Bài viết liên quan