[ad_1]
Chúng tôi khám phá các phương pháp học tập biểu diễn video mới được trang bị khả năng suy luận dạng dài. Đây là Phần III cung cấp cái nhìn sơ lược về những khám phá mới nhất và tuyệt vời nhất của chúng tôi về việc học cách trình bày video lấy cái tôi làm trung tâm “dài hạn”. Nhìn thấy Phần I trên video dưới dạng biểu đồ và Phần II trên các máy biến đổi văn bản video thưa thớt.
Hai weblog đầu tiên trong loạt bài này đã mô tả cách các mô-típ kiến trúc khác nhau, từ mạng lưới thần kinh đồ thị đến các máy biến áp thưa thớt, giải quyết những thách thức của việc học cách trình bày video “dạng dài”. Chúng tôi đã chỉ ra cách các phương pháp dựa trên biểu đồ rõ ràng có thể tổng hợp bối cảnh thời gian lớn hơn 5-10 lần, nhưng chúng là các phương pháp hai giai đoạn. Tiếp theo, chúng tôi khám phá cách chúng tôi có thể tạo bộ nhớ và tính toán các mô hình có thể học được từ đầu đến cuối một cách hiệu quả dựa trên các máy biến áp và tổng hợp trên bối cảnh thời gian lớn hơn gấp 2 lần.
Trong weblog này, tôi sẽ đưa bạn đến những khám phá mới nhất và tuyệt vời nhất của chúng tôi, đặc biệt là để hiểu được video lấy cái tôi làm trung tâm. Như bạn có thể tưởng tượng, một video có góc nhìn thứ nhất hoặc ích kỷ (thường được quay bằng digital camera gắn trên đầu) rất có thể đến từ digital camera luôn BẬT, nghĩa là video thực sự rất dài, có nhiều thông tin hình ảnh không liên quan, đặc biệt khi người đeo máy ảnh di chuyển đầu của họ. Và điều này xảy ra rất nhiều lần với digital camera gắn trên đầu. Việc phân tích thích hợp các video góc nhìn thứ nhất như vậy có thể cho phép hiểu chi tiết về cách con người tương tác với môi trường, cách họ thao tác với các vật thể và cuối cùng là mục tiêu và ý định của họ là gì. Các ứng dụng điển hình của hệ thống thị giác tự nhiên yêu cầu các thuật toán có thể biểu diễn và xử lý video theo khoảng thời gian kéo dài theo thứ tự phút hoặc giờ. Ví dụ về các ứng dụng như vậy là dự đoán hành động, tóm tắt video và truy xuất bộ nhớ theo từng giai đoạn.