[ad_1]
Web tràn ngập các video hướng dẫn có thể dạy cho những người xem tò mò mọi thứ, từ cách nấu chiếc bánh kếp hoàn hảo đến thực hiện thao tác Heimlich để cứu mạng.
Tuy nhiên, việc xác định chính xác thời điểm và địa điểm xảy ra một hành động cụ thể trong một video dài có thể rất tẻ nhạt. Để hợp lý hóa quy trình, các nhà khoa học đang cố gắng dạy máy tính thực hiện nhiệm vụ này. Lý tưởng nhất là người dùng chỉ cần mô tả hành động họ đang tìm kiếm và mô hình AI sẽ chuyển đến vị trí của nó trong video.
Tuy nhiên, việc dạy các mô hình học máy để thực hiện điều này thường đòi hỏi rất nhiều dữ liệu video đắt tiền được dán nhãn bằng tay một cách tỉ mỉ.
Một cách tiếp cận mới, hiệu quả hơn từ các nhà nghiên cứu tại MIT và Phòng thí nghiệm AI Watson của MIT-IBM đào tạo một mô hình để thực hiện nhiệm vụ này, được gọi là nối đất theo không gian-thời gian, chỉ sử dụng video và bản ghi được tạo tự động của chúng.
Các nhà nghiên cứu dạy một mô hình hiểu một video không được gắn nhãn theo hai cách riêng biệt: bằng cách xem xét các chi tiết nhỏ để tìm ra vị trí của các đối tượng (thông tin không gian) và nhìn vào bức tranh lớn hơn để hiểu thời điểm hành động xảy ra (thông tin thời gian).
So với các phương pháp AI khác, phương pháp của họ xác định chính xác hơn các hành động trong video dài hơn với nhiều hoạt động. Điều thú vị là họ phát hiện ra rằng việc đào tạo đồng thời về thông tin không gian và thời gian giúp mô hình xác định từng thông tin riêng lẻ tốt hơn.
Ngoài việc hợp lý hóa quy trình học tập trực tuyến và đào tạo ảo, kỹ thuật này cũng có thể hữu ích trong các cơ sở chăm sóc sức khỏe bằng cách nhanh chóng tìm thấy những khoảnh khắc quan trọng trong video về quy trình chẩn đoán.
“Chúng tôi giải quyết thách thức của việc cố gắng mã hóa tất cả thông tin không gian và thời gian cùng một lúc và thay vào đó nghĩ về nó giống như hai chuyên gia làm việc riêng lẻ, hóa ra đây lại là một cách rõ ràng hơn để mã hóa thông tin. Brian Chen, tác giả chính của nghiên cứu, cho biết mô hình của chúng tôi, kết hợp hai nhánh riêng biệt này, sẽ mang lại hiệu suất tốt nhất. bài viết về kỹ thuật này.
Chen, sinh viên tốt nghiệp Đại học Columbia năm 2023, người đã thực hiện nghiên cứu này khi còn là sinh viên thỉnh giảng tại Phòng thí nghiệm AI Watson của MIT-IBM, đã tham gia vào bài báo cùng với James Glass, nhà khoa học nghiên cứu cấp cao, thành viên của Phòng thí nghiệm AI Watson của MIT-IBM, và người đứng đầu. của Nhóm Hệ thống Ngôn ngữ Nói trong Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL); Hilde Kuehne, thành viên của Phòng thí nghiệm AI Watson của MIT-IBM, người cũng liên kết với Đại học Goethe Frankfurt; và những người khác tại MIT, Đại học Goethe, Phòng thí nghiệm AI Watson của MIT-IBM và High quality Match GmbH. Nghiên cứu sẽ được trình bày tại Hội nghị về Thị giác máy tính và Nhận dạng mẫu.
Học tập toàn cầu và địa phương
Các nhà nghiên cứu thường dạy các mô hình thực hiện việc nối đất theo không gian-thời gian bằng cách sử dụng các video trong đó con người chú thích thời gian bắt đầu và kết thúc của các nhiệm vụ cụ thể.
Việc tạo ra những dữ liệu này không chỉ tốn kém mà con người còn khó có thể tìm ra chính xác những gì cần gắn nhãn. Nếu hành động là “nấu bánh kếp”, hành động đó bắt đầu khi đầu bếp bắt đầu trộn bột hay khi cô ấy đổ bột vào chảo?
“Lần này nhiệm vụ có thể là nấu ăn, nhưng lần sau có thể là sửa xe. Có rất nhiều miền khác nhau để mọi người chú thích. Nhưng nếu chúng ta có thể học mọi thứ mà không cần nhãn mác thì đó là một giải pháp tổng quát hơn,” Chen nói.
Đối với phương pháp tiếp cận của mình, các nhà nghiên cứu sử dụng các video hướng dẫn không gắn nhãn và bản ghi văn bản đi kèm từ một trang internet như YouTube làm dữ liệu đào tạo. Những điều này không cần bất kỳ sự chuẩn bị đặc biệt nào.
Họ chia quá trình đào tạo thành hai phần. Đầu tiên, họ dạy một mô hình học máy xem toàn bộ video để hiểu hành động nào xảy ra vào những thời điểm nhất định. Thông tin cấp cao này được gọi là đại diện toàn cầu.
Thứ hai, họ dạy người mẫu tập trung vào một vùng cụ thể trong các phần của video nơi hành động đang diễn ra. Ví dụ: trong một nhà bếp lớn, người mẫu có thể chỉ cần tập trung vào chiếc thìa gỗ mà đầu bếp đang sử dụng để trộn bột bánh pancake, thay vì toàn bộ quầy. Thông tin chi tiết này được gọi là đại diện cục bộ.
Các nhà nghiên cứu kết hợp một thành phần bổ sung vào khung của họ để giảm thiểu sự sai lệch xảy ra giữa tường thuật và video. Có lẽ đầu bếp nói về việc nấu bánh trước và thực hiện hành động sau.
Để phát triển một giải pháp thực tế hơn, các nhà nghiên cứu đã tập trung vào các video chưa cắt dài vài phút. Ngược lại, hầu hết các kỹ thuật AI đều huấn luyện bằng cách sử dụng các đoạn clip dài vài giây mà ai đó đã cắt bớt để chỉ hiển thị một hành động.
Một điểm chuẩn mới
Nhưng khi đánh giá phương pháp của mình, các nhà nghiên cứu không thể tìm thấy tiêu chuẩn hiệu quả để thử nghiệm mô hình trên những video dài hơn, chưa cắt này – vì vậy họ đã tạo một mô hình.
Để xây dựng tập dữ liệu chuẩn của mình, các nhà nghiên cứu đã nghĩ ra một kỹ thuật chú thích mới hoạt động hiệu quả để xác định các hành động nhiều bước. Họ yêu cầu người dùng đánh dấu điểm giao nhau của các vật thể, chẳng hạn như điểm mà lưỡi dao cắt quả cà chua, thay vì vẽ một hộp xung quanh các vật thể quan trọng.
Chen nói: “Điều này được xác định rõ ràng hơn và tăng tốc quá trình chú thích, giúp giảm chi phí và sức lao động của con người”.
Ngoài ra, việc có nhiều người thực hiện chú thích điểm trên cùng một video có thể ghi lại các hành động diễn ra theo thời gian tốt hơn, chẳng hạn như dòng sữa được rót. Tất cả người chú thích sẽ không đánh dấu chính xác cùng một điểm trong dòng chất lỏng.
Khi họ sử dụng điểm chuẩn này để kiểm tra phương pháp của mình, các nhà nghiên cứu nhận thấy rằng nó xác định chính xác các hành động hơn các kỹ thuật AI khác.
Phương pháp của họ cũng tốt hơn trong việc tập trung vào sự tương tác giữa con người và đối tượng. Ví dụ: nếu hành động là “phục vụ một chiếc bánh kếp”, nhiều cách tiếp cận khác có thể chỉ tập trung vào các đối tượng chính, chẳng hạn như một chồng bánh kếp đặt trên quầy. Thay vào đó, phương pháp của họ tập trung vào thời điểm thực tế khi đầu bếp lật chiếc bánh kếp lên đĩa.
Tiếp theo, các nhà nghiên cứu có kế hoạch nâng cao phương pháp tiếp cận của họ để các mô hình có thể tự động phát hiện khi văn bản và lời tường thuật không thẳng hàng và chuyển trọng tâm từ phương thức này sang phương thức khác. Họ cũng muốn mở rộng khuôn khổ của mình sang dữ liệu âm thanh, vì thường có mối tương quan chặt chẽ giữa hành động và âm thanh mà các đối tượng tạo ra.
Nghiên cứu này được tài trợ một phần bởi Phòng thí nghiệm AI Watson của MIT-IBM.
[ad_2]
Source link