“Robot có thể được đào tạo để làm việc nhà thông qua các video hướng dẫn trên YouTube”

Các nhà nghiên cứu tại Đại học Carnegie Mellon đã đạt được bước đột phá lớn trong lĩnh vực rô-bốt bằng cách cho phép rô-bốt học việc nhà thông qua phân tích video. Bằng cách xem các video trên YouTube, hai robot đã học thành công 12 nhiệm vụ khác nhau, bao gồm mở ngăn kéo, cửa và nắp lò nướng cũng như nhặt các đồ vật khác nhau như điện thoại, rau và lon súp. Công nghệ VRB, một cải tiến của WHIRL, cho phép rô-bốt học mà không cần sự trình diễn của con người và không cần môi trường tương tự. Các nhà nghiên cứu đã sử dụng các tập dữ liệu video lớn như Ego4D và Epic Kitchens để hỗ trợ quá trình học tập. Công nghệ này có tiềm năng lớn để cải thiện chức năng của robot trong nhà, tạo điều kiện hỗ trợ các công việc như nấu ăn và dọn dẹp.
Các nhà nghiên cứu của Đại học Carnegie Mellon (CMU) đã đạt được bước đột phá lớn trong lĩnh vực rô-bốt bằng cách cho phép rô-bốt học việc nhà thông qua phân tích video. Những tiến bộ này có tiềm năng lớn để cải thiện chức năng của robot trong nhà, tạo điều kiện hỗ trợ các công việc như nấu ăn và dọn dẹp.
Bằng cách xem các video trên YouTube về những người thực hiện các hoạt động hàng ngày, hai robot đã học thành công 12 nhiệm vụ khác nhau, bao gồm mở ngăn kéo, cửa và nắp lò nướng cũng như nhặt các đồ vật khác nhau như điện thoại, rau và lon súp.
Các video trên YouTube có thể dạy rô-bốt thực hiện các nhiệm vụ cơ bản
Rô-bốt có thể xem video YouTube về một người nào đó đang thực hiện một nhiệm vụ nhất định và học cách thực hiện chính xác.
Deepak Pathak, trợ lý giáo sư tại Viện Robotics của CMU, nhấn mạnh tầm quan trọng của phân tích video trong việc dạy robot.
🤖 Robotics thường gặp vấn đề về con gà và quả trứng: không có dữ liệu robot quy mô web để đào tạo (không giống như CV hoặc NLP) b/c robot chưa được sử dụng & ngược lại.
Giới thiệu VRB: Sử dụng các video quy mô lớn của con người để đào tạo các mô hình năng lực *đa năng* nhằm bắt đầu bất kỳ mô hình rô-bốt nào! pic.twitter.com/csbvsfswuG
– Deepak Pathak (@pathak2206) Ngày 13 tháng 6 năm 2023
Thông qua các video hướng dẫn trên YouTube, quá trình học sâu giúp robot bắt chước các hoạt động đơn giản của con người. Phương pháp được các chuyên gia sử dụng tiên tiến hơn so với quy trình truyền thống, chẳng hạn như hiển thị các bài học trong sách hướng dẫn. Nó không chỉ tốn thời gian mà còn dễ bị sai sót.
Công trình trước đây của các nhà nghiên cứu về Học tập Robot bắt chước con người trong tự nhiên (WHIRL) yêu cầu con người thể hiện các nhiệm vụ trong cùng môi trường với robot, nhưng mô hình mới nhất của họ, Cầu Tầm nhìn-Robotics (VRB), đã loại bỏ ràng buộc này.
“Chúng tôi có thể đưa robot đi quanh khuôn viên trường và thực hiện nhiều nhiệm vụ khác nhau. Robot có thể sử dụng mô hình này để khám phá thế giới xung quanh một cách tò mò. Thay vì chỉ nắm chặt tay, robot có thể trực tiếp hơn trong cách chúng tương tác,” Robotics Ph.D . sinh viên Shikhar Bahl nói.
Cầu Vision-Robotic là gì?
VRB, một cải tiến của WHIRL, cho phép rô-bốt học mà không cần sự trình diễn của con người và không cần môi trường tương tự. Mặc dù đào tạo vẫn là điều cần thiết để thành thạo một nhiệm vụ, nhưng các nhà nghiên cứu đã chỉ ra rằng robot có thể học một nhiệm vụ mới chỉ trong 25 phút khi sử dụng VRB.
Những đổi mới này cho phép robot thích nghi và học hỏi trong nhiều môi trường khác nhau, mở rộng tiện ích của chúng trong các tình huống thực tế.
Hiểu cho phép tương tác đối tượng
Khái niệm về khả năng đóng một vai trò quan trọng trong việc dạy robot cách tương tác với các đối tượng. Khả năng chi trả, bắt nguồn từ tâm lý học, đề cập đến những cơ hội mà môi trường mang lại cho các cá nhân.
TRONG VRB, khả năng xác định cách robot có thể tương tác với các đối tượng dựa trên hành vi của con người. Ví dụ: bằng cách phân tích video quay cảnh con người mở ngăn kéo, robot xác định các điểm tiếp xúc như tay cầm và hướng di chuyển. Bằng cách học hỏi từ nhiều video, robot đã khái quát hóa kiến thức này và có thể tự tin mở bất kỳ ngăn kéo nào.
Bài viết liên quan: Các chuyên gia tin rằng robot AI sẽ làm 39% công việc nhà trong thập kỷ tới
Tận dụng tập dữ liệu video lớn
Nhóm nghiên cứu đã sử dụng các bộ dữ liệu video quy mô lớn như Ego4D và Epic Kitchens để hỗ trợ quá trình học tập. Ego4D bao gồm gần 4.000 giờ video vị kỷ ghi lại các hoạt động hàng ngày từ khắp nơi trên thế giới.
Các nhà nghiên cứu của CMU đã đóng góp tích cực vào bộ sưu tập các video này. Epic Kitchens tập trung vào các công việc nấu nướng, dọn dẹp và nhà bếp, cung cấp dữ liệu quý giá để huấn luyện các mô hình thị giác máy tính. Các bộ dữ liệu này giúp huấn luyện rô-bốt nhận biết và hiểu các tương tác của con người trong môi trường thế giới thực.
Thật vậy, thật đáng kinh ngạc khi thấy người máy có thể đi được bao xa mỗi năm. Với công nghệ hướng dẫn đang được các chuyên gia sử dụng để nâng cao chức năng của máy móc, chỉ có thời gian mới trả lời được liệu chúng có thể bắt kịp con người hay không.
Cũng đọc: Robot này có thể chuyển đổi giữa chất lỏng và chất rắn tùy thuộc vào tình huống