[ad_1]
Các nhà nghiên cứu tại Phòng thí nghiệm AI Robotic và Thể hiện tại Đại học Stanford đã bắt tay vào thay đổi điều đó. Đầu tiên, họ xây dựng một hệ thống để thu thập dữ liệu âm thanh, bao gồm một kẹp có micrô được thiết kế để lọc tiếng ồn xung quanh và một digicam GoPro. Người biểu diễn là con người đã sử dụng kẹp cho nhiều công việc gia đình khác nhau, sau đó sử dụng dữ liệu này để huấn luyện cánh tay rô bốt cách tự thực hiện nhiệm vụ. Các thuật toán đào tạo mới của nhóm giúp rô bốt thu thập manh mối từ tín hiệu âm thanh để thực hiện hiệu quả hơn.
“Cho đến nay, robotic đã được đào tạo trên các video bị tắt tiếng”, Zeyi Liu, một nghiên cứu sinh tiến sĩ tại Stanford và là tác giả chính của nghiên cứu. “Nhưng có rất nhiều dữ liệu hữu ích trong âm thanh.”
Để kiểm tra xem một con rô-bốt có thể thành công hơn bao nhiêu nếu nó có khả năng “lắng nghe”, các nhà nghiên cứu đã chọn bốn nhiệm vụ: lật một chiếc bánh mì tròn trong chảo, xóa bảng trắng, ghép hai dải băng dính lại với nhau và đổ xúc xắc ra khỏi cốc. Trong mỗi nhiệm vụ, âm thanh cung cấp manh mối mà máy ảnh hoặc cảm biến xúc giác gặp khó khăn, chẳng hạn như biết cục tẩy có tiếp xúc đúng cách với bảng trắng hay cốc có chứa xúc xắc hay không.
Sau khi trình diễn từng nhiệm vụ vài trăm lần, nhóm đã so sánh tỷ lệ thành công của việc đào tạo bằng âm thanh so với chỉ đào tạo bằng thị giác. Kết quả, được công bố trong một bài báo về arXiv chưa được đánh giá ngang hàng, rất hứa hẹn. Khi chỉ sử dụng thị giác trong thử nghiệm xúc xắc, robotic chỉ có thể biết được 27% thời gian có xúc xắc trong cốc hay không, nhưng con số này tăng lên 94% khi có âm thanh.
Liu cho biết đây không phải là lần đầu tiên âm thanh được sử dụng để huấn luyện robotic, nhưng đây là bước tiến lớn hướng tới việc thực hiện ở quy mô lớn. “Chúng tôi đang giúp việc sử dụng âm thanh thu thập được ‘trong tự nhiên’ trở nên dễ dàng hơn, thay vì chỉ giới hạn trong việc thu thập trong phòng thí nghiệm, vốn tốn nhiều thời gian hơn”.
Nghiên cứu chỉ ra rằng âm thanh có thể trở thành nguồn dữ liệu được săn đón nhiều hơn trong cuộc đua đào tạo robot với AI. Các nhà nghiên cứu đang dạy robotic nhanh hơn bao giờ hết bằng cách sử dụng phương pháp học bắt chước, cho chúng xem hàng trăm ví dụ về các nhiệm vụ đang được thực hiện thay vì mã hóa thủ công từng nhiệm vụ. Nếu âm thanh có thể được thu thập ở quy mô lớn bằng các thiết bị như thiết bị trong nghiên cứu, nó có thể cung cấp một “giác quan” hoàn toàn mới cho robotic, giúp chúng thích nghi nhanh hơn với môi trường có tầm nhìn hạn chế hoặc không hữu ích.
Dmitry Berenson, phó giáo sư ngành robotic tại Đại học Michigan, người không tham gia vào nghiên cứu này, cho biết: “Có thể nói rằng âm thanh là phương thức cảm biến ít được nghiên cứu nhất” ở robotic. Đó là vì phần lớn nghiên cứu về robotic về thao tác các vật thể là dành cho các nhiệm vụ nhặt và đặt trong công nghiệp, chẳng hạn như phân loại các vật thể vào thùng. Những nhiệm vụ đó không được hưởng lợi nhiều từ âm thanh, thay vào đó dựa vào các cảm biến xúc giác hoặc thị giác. Nhưng, như robotic nới rộng Berenson cho biết, khi áp dụng vào các công việc trong gia đình, nhà bếp và các môi trường khác, âm thanh sẽ ngày càng hữu ích hơn.
Hãy xem xét một con rô-bốt đang cố gắng tìm chiếc túi nào chứa một bộ chìa khóa, tất cả đều có tầm nhìn hạn chế. “Có thể thậm chí trước khi bạn chạm vào chìa khóa, bạn đã nghe thấy chúng kêu leng keng”, Berenson nói. “Đó là một tín hiệu cho thấy chìa khóa nằm trong túi đó, thay vì những chiếc khác”.
Tuy nhiên, âm thanh vẫn có giới hạn. Nhóm nghiên cứu chỉ ra rằng âm thanh sẽ không hữu ích với những vật thể mềm hoặc linh hoạt như quần áo, vì chúng không tạo ra nhiều âm thanh hữu ích. Các robotic cũng gặp khó khăn trong việc lọc âm thanh tiếng động cơ của chính chúng trong khi thực hiện nhiệm vụ, vì tiếng ồn đó không có trong dữ liệu đào tạo do con người tạo ra. Để khắc phục, các nhà nghiên cứu cần thêm âm thanh của robotic – tiếng rít, tiếng ù và tiếng ồn của bộ truyền động – vào bộ đào tạo để robotic có thể học cách loại bỏ chúng.
Liu cho biết bước tiếp theo là xem các mô hình có thể cải thiện đến mức nào với nhiều dữ liệu hơn, có nghĩa là cần nhiều micrô hơn, thu thập âm thanh không gian và thêm micrô vào các loại thiết bị thu thập dữ liệu khác.
[ad_2]
Source link