[ad_1]
Ước tính độ sâu bằng mắt đơn là gì?
Ước tính độ sâu đơn sắc (MDE) là nhiệm vụ đào tạo mạng nơ-ron để xác định thông tin độ sâu từ một hình ảnh duy nhất. Đây là một lĩnh vực thú vị và đầy thử thách của Học máy và Thị giác máy tính vì việc dự đoán bản đồ độ sâu đòi hỏi mạng nơ-ron phải hình thành sự hiểu biết 3 chiều chỉ từ một hình ảnh 2 chiều.
Trong bài viết này, chúng ta sẽ thảo luận về một mô hình mới được gọi là Độ sâu bất kỳ V2 và tiền thân của nó, Độ sâu bất kỳ V1. Depth Something V2 đã vượt trội hơn hầu hết các mô hình khác về Ước tính độ sâu, cho thấy kết quả ấn tượng trên những hình ảnh khó.
Bài viết này dựa trên một video tôi đã thực hiện về cùng chủ đề. Đây là liên kết video dành cho những người học thích phương tiện trực quan. Đối với những ai thích đọc, hãy tiếp tục!
Tại sao chúng ta nên quan tâm tới mô hình MDE?
Các mô hình MDE tốt có nhiều ứng dụng thực tế, chẳng hạn như hỗ trợ điều hướng và tránh chướng ngại vật cho robotmáy bay không người lái và xe tự hành. Chúng cũng có thể được sử dụng trong chỉnh sửa video và hình ảnh, thay thế nền, xóa đối tượng và tạo hiệu ứng 3D. Ngoài ra, chúng là hữu ích cho tai nghe AR và VR để tạo không gian 3D tương tác xung quanh người dùng.
Có hai cách tiếp cận chính để thực hiện MDE (bài viết này chỉ đề cập đến một cách)
Hai phương pháp chính đã xuất hiện để đào tạo các mô hình MDE — một là phương pháp phân biệt trong đó mạng cố gắng dự đoán độ sâu như một mục tiêu học có giám sát và hai là phương pháp tạo sinh như khuếch tán có điều kiện trong đó dự đoán độ sâu là một tác vụ tạo hình ảnh lặp đi lặp lại. Độ sâu Bất cứ thứ gì cũng đều thuộc loại đầu tiên của các phương pháp phân biệt, và đó là những gì chúng ta sẽ thảo luận ngày hôm nay. Chào mừng đến với Neural Breakdown và chúng ta hãy cùng đi sâu hơn với Ước tính độ sâu(!
Để hiểu đầy đủ về Depth Something, trước tiên chúng ta hãy xem lại bài báo MiDAS năm 2019, đóng vai trò là tiền thân của thuật toán Depth Something.
MiDAS đào tạo mô hình MDE bằng cách sử dụng kết hợp các tập dữ liệu khác nhau có chứa thông tin độ sâu được gắn nhãn. Ví dụ, KITTI bộ dữ liệu cho việc lái xe tự động cung cấp hình ảnh ngoài trời, trong khi NYU-Độ sâu V2 bộ dữ liệu cung cấp các cảnh trong nhà. Việc hiểu cách thu thập các bộ dữ liệu này là rất quan trọng vì các mô hình mới hơn như Depth Something và Depth Something V2 giải quyết một số vấn đề vốn có trong quá trình thu thập dữ liệu.
Cách thu thập dữ liệu độ sâu thực tế
Các tập dữ liệu này thường được thu thập bằng digicam stereo, trong đó hai hoặc nhiều digicam được đặt ở khoảng cách cố định chụp ảnh đồng thời từ các góc nhìn hơi khác nhau, cho phép trích xuất thông tin về độ sâu. Tập dữ liệu NYU-Depth V2 sử dụng digicam RGB-D chụp các giá trị độ sâu cùng với màu pixel. Một số tập dữ liệu sử dụng LiDAR, chiếu chùm tia laser để chụp thông tin 3D về một cảnh.
Tuy nhiên, những phương pháp này lại có một số vấn đề. Lượng dữ liệu được gắn nhãn bị hạn chế do chi phí vận hành cao để có được các tập dữ liệu này. Ngoài ra, các chú thích có thể bị nhiễu và có độ phân giải thấp. Digicam stereo gặp khó khăn trong nhiều điều kiện ánh sáng khác nhau và không thể xác định đáng tin cậy các bề mặt trong suốt hoặc có độ phản chiếu cao. LiDAR đắt tiền và cả digicam LiDAR và RGB-D đều có phạm vi hạn chế và tạo ra các bản đồ độ sâu thưa thớt, độ phân giải thấp.
Chúng ta có thể sử dụng Hình ảnh không có nhãn để học Ước tính độ sâu không?
Sẽ rất có lợi khi sử dụng hình ảnh không có nhãn để đào tạo các mô hình ước tính độ sâu, vì có rất nhiều hình ảnh như vậy có sẵn trực tuyến. Đổi mới chính được đề xuất trong bài báo Depth Something gốc từ năm 2023 là việc kết hợp các tập dữ liệu không có nhãn này vào quy trình đào tạo. Trong phần tiếp theo, chúng ta sẽ khám phá cách thực hiện điều này.
[ad_2]
Source link