Chain-of-Thought Cho Robot: Khi LLM Học Cách Lập Kế Hoạch Hành Động Vật Lý
Một trong những thách thức lớn nhất của robot AI không phải là di chuyển hay nhận diện vật thể — mà là lập kế hoạch hành động nhiều bước trong môi trường phức tạp. "Đặt ly nước lên bàn bếp" nghe đơn giản nhưng đòi hỏi robot phải suy luận: tay có rảnh không? Đường đi có trống không? Ly đang ở đâu? Đặt chỗ nào trên bàn?
Chain-of-Thought (CoT) — kỹ thuật cho phép LLM suy luận từng bước trước khi đưa ra câu trả lời — đang được ứng dụng vào robotics theo những cách đột phá.
Chain-of-Thought Là Gì? Nhắc Lại Nhanh
Trong NLP, CoT prompting được Google Brain giới thiệu năm 2022: thay vì hỏi "5 × 4 + 3 = ?" và chờ câu trả lời ngay, người ta hướng dẫn model viết ra các bước trung gian trước khi kết luận. Model chính xác hơn đáng kể khi "suy nghĩ thành lời".
Trong robotics, nguyên lý tương tự được áp dụng: thay vì ánh xạ trực tiếp "lệnh ngôn ngữ → hành động robot", hệ thống được yêu cầu tạo ra một chuỗi kế hoạch trung gian trước khi thực thi.
SayCan (Google, 2022): Nền Tảng Đầu Tiên
Năm 2022, Google Research công bố SayCan — framework kết hợp khả năng lập kế hoạch của LLM với "affordance functions" (hàm khả năng thực hiện) để lọc ra những hành động robot thực sự có thể làm trong ngữ cảnh hiện tại.
Ví dụ với lệnh: "Tôi bị đổ nước, giúp tôi dọn"
- LLM gợi ý nhiều sub-task: lấy giẻ lau, lau nước, bỏ giẻ vào thùng rác
- Affordance function đánh giá: robot có thể làm được bước nào? (giẻ lau ở đâu?)
- Robot chọn hành động khả thi nhất và thực hiện tuần tự
SayCan đã chứng minh robot có thể hoàn thành task phức tạp 101 bước chỉ với lệnh ngôn ngữ tự nhiên — một bước nhảy vọt so với scripted programming truyền thống.
Inner Monologue (Google, 2022): Robot "Nói Chuyện Với Bản Thân"
Tiếp nối SayCan, Inner Monologue cho phép robot tạo ra vòng lặp phản hồi: sau mỗi hành động, robot "mô tả" lại tình trạng hiện tại bằng ngôn ngữ tự nhiên và LLM lập kế hoạch bước tiếp theo dựa trên mô tả đó.
Ví dụ vòng lặp Inner Monologue:
Task: "Lấy táo đỏ đặt vào hộp xanh"
→ Robot nhìn → LLM: "Tôi thấy táo đỏ trên bàn bên trái, hộp xanh trên kệ phải. Bước 1: di chuyển đến bàn trái."
→ Robot di chuyển → LLM: "Tôi đã đến gần bàn. Bước 2: cầm táo đỏ."
→ Robot cầm táo → LLM: "Đã cầm táo. Cần đến kệ phải. Bước 3: di chuyển đến kệ phải..."
ReAct Framework: Kết Hợp Reasoning + Acting
ReAct (Yao et al., 2022) mở rộng CoT bằng cách xen kẽ Thought (suy luận) và Action (hành động thực tế):
- Thought: "Tôi cần tìm vị trí của cốc nước. Tôi sẽ quét camera 360°."
- Action:
scan_environment() - Observation: "Cốc nước phát hiện tại tọa độ (x=1.2, y=0.8, z=0.7)"
- Thought: "Cốc ở bên phải. Tay phải robot rảnh. Sẽ tiếp cận từ phía trước."
- Action:
move_to(1.2, 0.8)
ReAct đặc biệt hiệu quả vì robot có thể sửa lỗi mid-task: nếu hành động thất bại, Observation sẽ phản ánh điều đó và LLM tự điều chỉnh kế hoạch.
Ứng Dụng Trong Các Robot Thế Hệ Mới 2025–2026
| Hệ thống | Công ty | Cách dùng CoT/Planning |
|---|---|---|
| RT-2 (Robotic Transformer 2) | Google DeepMind | CoT reasoning tích hợp trong transformer đầu ra hành động |
| Figure 02 + OpenAI GPT | Figure AI + OpenAI | Multi-turn dialogue với CoT để phân rã task nhà máy BMW |
| Gemini Robotics ER | Google DeepMind | Gemini 1.5 Pro với long-context CoT cho task 50+ bước |
| π0 (Physical Intelligence) | Physical Intelligence | Flow matching + VLM với implicit CoT trong latent space |
| Helix (Figure) | Figure AI | Two-system: VLM (high-level CoT) + low-level motor policy |
Hạn Chế Hiện Tại Của CoT Trong Robotics
- Latency: Gọi LLM API mỗi bước mất 0,5–2 giây — quá chậm cho hành động phản xạ (tránh vật cản đột ngột)
- Hallucination: LLM có thể lập kế hoạch hành động không khả thi về mặt vật lý ("nhấc vật nặng 50kg bằng một tay")
- Context window: Task dài (100+ bước) vượt quá context window của nhiều model, gây mất "ký ức" hành động cũ
- Grounding: Cần cơ chế liên kết chính xác giữa ngôn ngữ ("cái ly xanh") và vật thể vật lý trong 3D
Hướng Nghiên Cứu Tiếp Theo
Các nhóm nghiên cứu đang giải quyết những hạn chế này qua:
- Hierarchical planning: LLM lớn cho high-level plan, model nhỏ hơn/nhanh hơn cho low-level execution
- World models kết hợp CoT: NVIDIA Cosmos và World Labs đang xây dựng model "tưởng tượng" kết quả hành động trước khi thực thi
- Speculative execution: Robot thực thi song song nhiều nhánh kế hoạch, chọn nhánh thành công
Chain-of-Thought trong robotics còn rất mới nhưng đang phát triển nhanh. Theo dõi blog AGIBOT để cập nhật. Website đang trong giai đoạn thử nghiệm.