[ad_1]
Một ngày nào đó, bạn có thể muốn robotic gia đình của mình mang một đống quần áo bẩn xuống tầng dưới và cho chúng vào máy giặt ở góc xa bên trái của tầng hầm. Robotic sẽ cần kết hợp các hướng dẫn của bạn với các quan sát trực quan để xác định các bước cần thực hiện để hoàn thành nhiệm vụ này.
Đối với một tác nhân AI, điều này nói dễ hơn làm. Các phương pháp tiếp cận hiện tại thường sử dụng nhiều mô hình học máy thủ công để giải quyết các phần khác nhau của nhiệm vụ, vốn đòi hỏi rất nhiều nỗ lực và chuyên môn của con người để xây dựng. Những phương pháp này sử dụng cách trình bày trực quan để trực tiếp đưa ra quyết định điều hướng, đòi hỏi lượng dữ liệu trực quan khổng lồ cho việc đào tạo, thường khó có được.
Để vượt qua những thách thức này, các nhà nghiên cứu từ MIT và Phòng thí nghiệm AI Watson của MIT-IBM đã phát minh ra một phương pháp điều hướng giúp chuyển đổi các hình thức trình bày trực quan thành các phần ngôn ngữ, sau đó được đưa vào một mô hình ngôn ngữ lớn để thực hiện tất cả các phần của nhiệm vụ điều hướng nhiều bước.
Thay vì mã hóa các đặc điểm hình ảnh từ hình ảnh xung quanh robotic dưới dạng biểu diễn trực quan đòi hỏi tính toán chuyên sâu, phương pháp của họ tạo ra chú thích văn bản mô tả quan điểm của robotic. Một mô hình ngôn ngữ lớn sử dụng chú thích để dự đoán các hành động mà robotic sẽ thực hiện để thực hiện các hướng dẫn dựa trên ngôn ngữ của người dùng.
Bởi vì phương pháp của họ sử dụng các biểu diễn hoàn toàn dựa trên ngôn ngữ nên họ có thể sử dụng mô hình ngôn ngữ lớn để tạo ra một lượng lớn dữ liệu đào tạo tổng hợp một cách hiệu quả.
Mặc dù phương pháp này không hoạt động tốt hơn các kỹ thuật sử dụng các tính năng trực quan nhưng nó hoạt động tốt trong các tình huống thiếu đủ dữ liệu trực quan để đào tạo. Các nhà nghiên cứu nhận thấy rằng việc kết hợp đầu vào dựa trên ngôn ngữ của họ với tín hiệu hình ảnh sẽ mang lại hiệu suất điều hướng tốt hơn.
“Bằng cách hoàn toàn sử dụng ngôn ngữ làm cách thể hiện nhận thức, cách tiếp cận của chúng tôi là đơn giản hơn. Vì tất cả đầu vào có thể được mã hóa dưới dạng ngôn ngữ nên chúng tôi có thể tạo ra một quỹ đạo mà con người có thể hiểu được,” Bowen Pan, sinh viên tốt nghiệp ngành kỹ thuật điện và khoa học máy tính (EECS) và là tác giả chính của một nghiên cứu cho biết. bài viết về phương pháp này.
Các đồng tác giả của Pan bao gồm cố vấn của ông, Aude Oliva, giám đốc tham gia chiến lược ngành tại Trường Cao đẳng Máy tính MIT Schwarzman, giám đốc MIT của Phòng thí nghiệm AI Watson của MIT-IBM, và một nhà khoa học nghiên cứu cấp cao tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL). ); Philip Isola, phó giáo sư của EECS và là thành viên của CSAIL; tác giả cao cấp Yoon Kim, trợ lý giáo sư của EECS và là thành viên của CSAIL; và những người khác tại Phòng thí nghiệm AI MIT-IBM Watson và Đại học Dartmouth. Nghiên cứu sẽ được trình bày tại Hội nghị của Hiệp hội Ngôn ngữ học tính toán Bắc Mỹ.
Giải quyết vấn đề về thị lực bằng ngôn ngữ
Pan cho biết vì các mô hình ngôn ngữ lớn là mô hình máy học mạnh mẽ nhất hiện có nên các nhà nghiên cứu đã tìm cách kết hợp chúng vào nhiệm vụ phức tạp được gọi là điều hướng bằng ngôn ngữ và tầm nhìn.
Nhưng những mô hình như vậy lấy dữ liệu đầu vào dựa trên văn bản và không thể xử lý dữ liệu hình ảnh từ digicam của robotic. Vì vậy, nhóm cần tìm cách sử dụng ngôn ngữ thay thế.
Kỹ thuật của họ sử dụng mô hình chú thích đơn giản để thu được mô tả bằng văn bản về các quan sát trực quan của robotic. Những chú thích này được kết hợp với các hướng dẫn dựa trên ngôn ngữ và được đưa vào một mô hình ngôn ngữ lớn, mô hình này sẽ quyết định bước điều hướng mà rô-bốt sẽ thực hiện tiếp theo.
Mô hình ngôn ngữ lớn đưa ra chú thích về cảnh mà robotic sẽ nhìn thấy sau khi hoàn thành bước đó. Điều này được sử dụng để cập nhật lịch sử quỹ đạo để robotic có thể theo dõi xem nó đã ở đâu.
Mô hình lặp lại các quá trình này để tạo ra quỹ đạo hướng robotic đến mục tiêu, từng bước một.
Để hợp lý hóa quy trình, các nhà nghiên cứu đã thiết kế các mẫu để thông tin quan sát được trình bày cho mô hình ở dạng chuẩn – dưới dạng một loạt lựa chọn mà robotic có thể thực hiện dựa trên môi trường xung quanh.
Ví dụ: chú thích có thể nói “bên trái 30 độ của bạn là cánh cửa có chậu cây bên cạnh, phía sau lưng bạn là một văn phòng nhỏ với bàn làm việc và máy tính”, v.v. Mô hình sẽ chọn xem robotic có nên di chuyển về phía đó hay không. cửa hoặc văn phòng.
Pan nói: “Một trong những thách thức lớn nhất là tìm ra cách mã hóa loại thông tin này thành ngôn ngữ một cách thích hợp để làm cho nhân viên hiểu nhiệm vụ là gì và họ nên phản hồi như thế nào”.
Ưu điểm của ngôn ngữ
Khi họ thử nghiệm phương pháp này, mặc dù nó không thể vượt trội hơn các kỹ thuật dựa trên thị giác nhưng họ nhận thấy rằng nó mang lại một số lợi ích.
Đầu tiên, vì văn bản yêu cầu ít tài nguyên tính toán để tổng hợp hơn dữ liệu hình ảnh phức tạp nên phương pháp của chúng có thể được sử dụng để tạo ra dữ liệu huấn luyện tổng hợp một cách nhanh chóng. Trong một thử nghiệm, họ đã tạo ra 10.000 quỹ đạo tổng hợp dựa trên 10 quỹ đạo trực quan trong thế giới thực.
Kỹ thuật này cũng có thể thu hẹp khoảng cách có thể ngăn cản một tác nhân được đào tạo trong môi trường mô phỏng hoạt động tốt trong thế giới thực. Khoảng cách này thường xảy ra do hình ảnh do máy tính tạo ra có thể trông khá khác so với cảnh trong thế giới thực do các yếu tố như ánh sáng hoặc màu sắc. Nhưng ngôn ngữ mô tả hình ảnh tổng hợp và hình ảnh thực tế sẽ khó phân biệt hơn nhiều, Pan nói.
Ngoài ra, các cách biểu diễn mà mô hình của họ sử dụng dễ hiểu hơn đối với con người vì chúng được viết bằng ngôn ngữ tự nhiên.
“Nếu tác nhân không đạt được mục tiêu, chúng tôi có thể dễ dàng xác định nó thất bại ở đâu và tại sao. Có thể thông tin lịch sử không đủ rõ ràng hoặc quan sát bỏ qua một số chi tiết quan trọng”, Pan nói.
Ngoài ra, phương pháp của họ có thể được áp dụng dễ dàng hơn cho các nhiệm vụ và môi trường khác nhau vì nó chỉ sử dụng một loại đầu vào. Miễn là dữ liệu có thể được mã hóa dưới dạng ngôn ngữ, chúng có thể sử dụng cùng một mô hình mà không cần thực hiện bất kỳ sửa đổi nào.
Nhưng có một nhược điểm là phương pháp của họ tự nhiên làm mất một số thông tin mà các mô hình dựa trên tầm nhìn có thể thu thập được, chẳng hạn như thông tin về độ sâu.
Tuy nhiên, các nhà nghiên cứu rất ngạc nhiên khi thấy rằng việc kết hợp các biểu diễn dựa trên ngôn ngữ với các phương pháp dựa trên tầm nhìn sẽ cải thiện khả năng điều hướng của tác nhân.
“Có lẽ điều này có nghĩa là ngôn ngữ có thể nắm bắt được một số thông tin ở cấp độ cao hơn những thông tin không thể nắm bắt được bằng các tính năng thị giác thuần túy,” ông nói.
Đây là một lĩnh vực mà các nhà nghiên cứu muốn tiếp tục khám phá. Họ cũng muốn phát triển một phụ đề định hướng điều hướng có thể nâng cao hiệu suất của phương pháp. Ngoài ra, họ muốn thăm dò khả năng của các mô hình ngôn ngữ lớn trong việc thể hiện nhận thức về không gian và xem điều này có thể hỗ trợ việc điều hướng dựa trên ngôn ngữ như thế nào.
Nghiên cứu này được tài trợ một phần bởi Phòng thí nghiệm AI Watson của MIT-IBM.
[ad_2]
Source link