[ad_1]
Giả sử bạn muốn huấn luyện robotic để nó hiểu cách sử dụng các công cụ và sau đó có thể nhanh chóng học cách sửa chữa xung quanh nhà bạn bằng búa, cờ lê và tuốc nơ vít. Để làm được điều đó, bạn sẽ cần một lượng lớn dữ liệu chứng minh việc sử dụng công cụ.
Các bộ dữ liệu robotic hiện tại rất khác nhau về phương thức – ví dụ, một số bao gồm hình ảnh màu trong khi một số khác bao gồm các dấu ấn xúc giác. Dữ liệu cũng có thể được thu thập trong các lĩnh vực khác nhau, như mô phỏng hoặc trình diễn con người. Và mỗi tập dữ liệu có thể nắm bắt một nhiệm vụ và môi trường duy nhất.
Rất khó để kết hợp hiệu quả dữ liệu từ nhiều nguồn vào một mô hình học máy, vì nhiều phương pháp chỉ sử dụng một loại dữ liệu để huấn luyện robotic. Nhưng robotic được đào tạo theo cách này, với lượng dữ liệu nhiệm vụ cụ thể tương đối nhỏ, thường không thể thực hiện các nhiệm vụ mới trong môi trường xa lạ.
Trong nỗ lực đào tạo các robotic đa năng tốt hơn, các nhà nghiên cứu của MIT đã phát triển một kỹ thuật kết hợp nhiều nguồn dữ liệu trên các lĩnh vực, phương thức và nhiệm vụ bằng cách sử dụng một loại AI tổng hợp được gọi là mô hình khuếch tán.
Họ đào tạo một mô hình phổ biến riêng biệt để tìm hiểu chiến lược hoặc chính sách nhằm hoàn thành một nhiệm vụ bằng cách sử dụng một tập dữ liệu cụ thể. Sau đó, họ kết hợp các chính sách đã học được từ các mô hình khuếch tán thành một chính sách chung cho phép robotic thực hiện nhiều tác vụ trong nhiều cài đặt khác nhau.
Trong các mô phỏng và thử nghiệm trong thế giới thực, phương pháp đào tạo này cho phép robotic thực hiện nhiều nhiệm vụ sử dụng công cụ và thích ứng với các nhiệm vụ mới mà nó không thấy trong quá trình đào tạo. Phương pháp này, được gọi là Thành phần chính sách (PoCo), đã giúp cải thiện 20% hiệu suất nhiệm vụ khi so sánh với các kỹ thuật cơ bản.
“Việc giải quyết tính không đồng nhất trong bộ dữ liệu robotic giống như vấn đề quả trứng gà. Nếu chúng ta muốn sử dụng nhiều dữ liệu để huấn luyện các chính sách chung về robotic thì trước tiên chúng ta cần những robotic có thể triển khai để có được tất cả dữ liệu này. Tôi nghĩ rằng việc tận dụng tất cả dữ liệu không đồng nhất có sẵn, tương tự như những gì các nhà nghiên cứu đã làm với ChatGPT, là một bước quan trọng đối với lĩnh vực chế tạo robotic,” Lirui Wang, sinh viên tốt nghiệp ngành kỹ thuật điện và khoa học máy tính (EECS) và là tác giả chính của một nghiên cứu cho biết. bài viết về PoCo.
Các đồng tác giả của Wang bao gồm Jialiang Zhao, một sinh viên tốt nghiệp ngành kỹ thuật cơ khí; Yilun Du, sinh viên tốt nghiệp EECS; Edward Adelson, Giáo sư Khoa học Thị giác của John và Dorothy Wilson thuộc Khoa Khoa học Nhận thức và Não bộ và là thành viên của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL); và tác giả cấp cao Russ Tedrake, Giáo sư Toyota về EECS, Hàng không và Du hành vũ trụ, Kỹ thuật Cơ khí, đồng thời là thành viên của CSAIL. Nghiên cứu này sẽ được trình bày tại Hội nghị Robotics: Khoa học và Hệ thống.
Kết hợp các bộ dữ liệu khác nhau
Chính sách robotic là một mô hình học máy lấy đầu vào và sử dụng chúng để thực hiện một hành động. Một cách để suy nghĩ về một chính sách là một chiến lược. Trong trường hợp cánh tay robotic, chiến lược đó có thể là một quỹ đạo hoặc một loạt các tư thế di chuyển cánh tay để nó nhặt một chiếc búa và dùng nó để đóng một chiếc đinh.
Các bộ dữ liệu được sử dụng để tìm hiểu các chính sách của robotic thường có kích thước nhỏ và tập trung vào một nhiệm vụ và môi trường cụ thể, chẳng hạn như đóng gói các mặt hàng vào hộp trong nhà kho.
“Mỗi kho robotic đều tạo ra hàng terabyte dữ liệu, nhưng nó chỉ thuộc về cài đặt robotic cụ thể đang hoạt động trên các gói đó. Sẽ không lý tưởng nếu bạn muốn sử dụng tất cả những dữ liệu này để huấn luyện một cỗ máy nói chung,” Wang nói.
Các nhà nghiên cứu của MIT đã phát triển một kỹ thuật có thể lấy một loạt bộ dữ liệu nhỏ hơn, giống như những bộ dữ liệu được thu thập từ nhiều kho robotic, tìm hiểu các chính sách riêng biệt từ mỗi bộ dữ liệu và kết hợp các chính sách theo cách cho phép robotic khái quát hóa nhiều nhiệm vụ.
Chúng thể hiện từng chính sách bằng cách sử dụng một loại mô hình AI tổng quát được gọi là mô hình phổ biến. Các mô hình khuếch tán, thường được sử dụng để tạo hình ảnh, học cách tạo các mẫu dữ liệu mới giống với các mẫu trong tập dữ liệu huấn luyện bằng cách tinh chỉnh đầu ra của chúng nhiều lần.
Nhưng thay vì dạy một mô hình khuếch tán để tạo ra hình ảnh, các nhà nghiên cứu dạy nó cách tạo ra quỹ đạo cho robotic. Họ làm điều này bằng cách thêm nhiễu vào quỹ đạo trong tập dữ liệu huấn luyện. Mô hình khuếch tán dần dần loại bỏ nhiễu và tinh chỉnh đầu ra của nó thành một quỹ đạo.
Kỹ thuật này, được gọi là Chính sách phổ biến, trước đây đã được giới thiệu bởi các nhà nghiên cứu tại MIT, Đại học Columbia và Viện nghiên cứu Toyota. PoCo xây dựng chính sách phổ biến này.
Nhóm đào tạo từng mô hình khuếch tán bằng một loại tập dữ liệu khác nhau, chẳng hạn như một mô hình có video trình diễn của con người và một mô hình khác thu thập được từ hoạt động từ xa của một cánh tay robotic.
Sau đó, các nhà nghiên cứu thực hiện kết hợp có trọng số các chính sách riêng lẻ đã học được từ tất cả các mô hình phổ biến, tinh chỉnh lặp đi lặp lại kết quả đầu ra để chính sách kết hợp đáp ứng các mục tiêu của từng chính sách riêng lẻ.
Lớn hơn tổng các phần của nó
“Một trong những lợi ích của cách tiếp cận này là chúng ta có thể kết hợp các chính sách để đạt được lợi ích tốt nhất từ cả hai phía. Ví dụ, một chính sách được đào tạo về dữ liệu trong thế giới thực có thể đạt được sự linh hoạt hơn, trong khi chính sách được đào tạo về mô phỏng có thể đạt được sự khái quát hóa hơn,” Wang nói.
Bởi vì các chính sách được đào tạo riêng biệt nên người ta có thể kết hợp các chính sách phổ biến để đạt được kết quả tốt hơn cho một nhiệm vụ nhất định. Người dùng cũng có thể thêm dữ liệu theo phương thức hoặc miền mới bằng cách đào tạo Chính sách phổ biến bổ sung với tập dữ liệu đó, thay vì bắt đầu toàn bộ quá trình từ đầu.
Các nhà nghiên cứu đã thử nghiệm PoCo trong mô phỏng và trên các cánh tay robotic thực sự thực hiện nhiều nhiệm vụ công cụ khác nhau, chẳng hạn như dùng búa để đóng đinh và lật một vật thể bằng thìa. PoCo đã giúp cải thiện 20% hiệu suất tác vụ so với các phương pháp cơ bản.
“Điều đáng chú ý là khi chúng tôi điều chỉnh xong và hình dung nó, chúng tôi có thể thấy rõ rằng quỹ đạo tổng hợp trông đẹp hơn nhiều so với từng quỹ đạo riêng lẻ,” Wang nói.
Trong tương lai, các nhà nghiên cứu muốn áp dụng kỹ thuật này cho các nhiệm vụ dài hạn, trong đó robotic sẽ chọn một công cụ, sử dụng nó và sau đó chuyển sang công cụ khác. Họ cũng muốn kết hợp các bộ dữ liệu robotic lớn hơn để cải thiện hiệu suất.
“Chúng ta sẽ cần cả ba loại dữ liệu để chế tạo robotic thành công: dữ liệu web, dữ liệu mô phỏng và dữ liệu robotic thực. Làm thế nào để kết hợp chúng một cách hiệu quả sẽ là câu hỏi triệu đô. PoCo là một bước đi vững chắc trên con đường đúng đắn,” Jim Fan, nhà khoa học nghiên cứu cấp cao tại NVIDIA và là người đứng đầu Sáng kiến Đại lý AI, người không tham gia vào công việc này, cho biết.
Nghiên cứu này được tài trợ một phần bởi Amazon, Cơ quan Khoa học và Công nghệ Quốc phòng Singapore, Quỹ Khoa học Quốc gia Hoa Kỳ và Viện Nghiên cứu Toyota.
[ad_2]
Source link