Mới đây, nhóm nghiên cứu tại Huawei Noah’s Ark Lab (London), Đại học Kỹ thuật Darmstadt và ETH ZuTrong nhiều thập kỷ qua, các nhà nghiên cứu robot đã phát triển nhiều thế hệ robot ngày càng tiên tiến, có khả năng tự động thực hiện các nhiệm vụ trong đời sống thực. Để có thể triển khai trong môi trường thực tế như không gian công cộng, gia đình hay văn phòng, robot cần hiểu và thực hiện chính xác các chỉ dẫn từ con người.
rich đã giới thiệu một khung làm việc mới kết hợp hệ điều hành robot (ROS) với mô hình ngôn ngữ lớn (LLM). Công trình được công bố trên Nature Machine Intelligence cho thấy cách kết nối LLM với ROS giúp robot dịch chỉ dẫn ngôn ngữ tự nhiên thành hành động cụ thể, mở ra hướng đi mới cho trí tuệ nhân tạo hiện thân (embodied AI).
“Robot tự động có khả năng biến chỉ dẫn ngôn ngữ tự nhiên thành hành động vật lý đáng tin cậy vẫn là thách thức trung tâm của AI. Chúng tôi chứng minh rằng việc kết nối LLM với ROS tạo ra một khung làm việc linh hoạt cho trí tuệ hiện thân,” – Christopher E. Mower và cộng sự viết.
Khung làm việc này cho phép LLM xử lý chỉ dẫn như “nhặt khối màu xanh và đặt lên kệ màu đen”, sau đó phân rã thành các bước nhỏ và chuyển thành hành động thông qua ROS. Có hai cách dịch lệnh:
Inline code: LLM viết các đoạn mã nhỏ trực tiếp điều khiển robot.
Behavior tree: Tổ chức hành động thành chuỗi có cấu trúc, kèm phương án thay thế nếu một bước thất bại.
Ngoài ra, hệ thống có thể học kỹ năng mới qua học bắt chước (imitation learning) và tối ưu liên tục nhờ phản hồi từ con người hoặc môi trường.
Nhóm nghiên cứu đã thử nghiệm trên nhiều loại robot với các nhiệm vụ khác nhau. Kết quả cho thấy framework này ổn định, mở rộng tốt và đa năng, từ các tác vụ dài hạn, sắp xếp vật thể trên bàn, tối ưu nhiệm vụ động cho đến điều khiển từ xa.
Đáng chú ý, toàn bộ kết quả đạt được đều sử dụng LLM mã nguồn mở đã được huấn luyện sẵn, cho thấy tiềm năng ứng dụng rộng rãi mà không cần mô hình độc quyền.
Trong thời gian tới, framework này có thể được mở rộng sang nhiều loại robot hơn, xử lý các nhiệm vụ phức tạp hơn trong môi trường động. Đồng thời, nó có thể truyền cảm hứng cho các giải pháp khác kết nối phần mềm điều khiển robot với LLM, đưa robot tiến gần hơn đến khả năng tương tác tự nhiên với con người. |