[ad_1]
Đào tạo trước về Miền hình ảnh
Khi chuyển sang miền hình ảnh, câu hỏi đặt ra ngay lập tức là làm thế nào chúng ta hình thành “chuỗi mã thông báo” hình ảnh. Suy nghĩ tự nhiên chỉ là sử dụng kiến trúc ViT, chia hình ảnh thành một mạng lưới các mảng hình ảnh (mã thông báo trực quan).
BEIT. Được xuất bản dưới dạng bản thảo arXiv vào năm 2022, ý tưởng về BEiT rất đơn giản. Sau khi mã hóa hình ảnh thành chuỗi mã thông báo trực quan 14*14, 40% mã thông báo được che dấu ngẫu nhiên, thay thế bằng các phần nhúng có thể học được và đưa vào máy biến áp. Mục tiêu đào tạo trước là tối đa hóa khả năng ghi nhật ký của các mã thông báo trực quan chính xác và không cần bộ giải mã cho giai đoạn này. Đường ống được thể hiện trong hình dưới đây.
Trong bài báo gốc, các tác giả cũng cung cấp mối liên hệ lý thuyết giữa BEiT và Bộ mã hóa tự động biến thiên. Vì vậy, câu hỏi tự nhiên là liệu Bộ mã hóa tự động có thể được sử dụng cho mục đích đào tạo trước không?
MAE-ViT. Bài viết này đã trả lời câu hỏi trên bằng cách thiết kế kiến trúc bộ mã hóa tự động đeo mặt nạ. Sử dụng cùng một công thức ViT và mặt nạ ngẫu nhiên, các tác giả đã đề xuất “loại bỏ” các bản vá bị che trong quá trình đào tạo và chỉ sử dụng các bản vá bị che trong chuỗi mã thông báo trực quan làm đầu vào cho bộ mã hóa. Mã thông báo mặt nạ sẽ được sử dụng để tái thiết trong giai đoạn giải mã ở giai đoạn tiền đào tạo. Bộ giải mã có thể linh hoạt, từ 1–12 khối biến áp có chiều từ 128 đến 1024. Thông tin kiến trúc chi tiết hơn có thể được tìm thấy trong bài báo gốc.
SimMIM. Khác một chút so với BEiT và MAE-ViT, bài báo đề xuất sử dụng xương sống linh hoạt như Swin Transformer cho mục đích mã hóa. Đầu dự đoán được đề xuất cực kỳ nhẹ—một lớp tuyến tính duy nhất của MLP 2 lớp để hồi quy các pixel bị che.
[ad_2]
Source link