[ad_1]
Pixel Transformer (PiT) – từ góc độ thiên vị quy nạp
Meta AI đã phát hành Báo cáo kỹ thuật tuần trước trên arXiv: “Một hình ảnh có giá trị hơn những miếng vá 16*16”. Thay vì đề xuất một phương pháp mới, báo cáo kỹ thuật đã trả lời một câu hỏi dai dẳng: Việc sử dụng pixel thay vì các bản vá làm mã thông báo đầu vào có hợp lý không? Nếu vậy thì tại sao?
Bài viết đã đưa ra quan điểm của Xu hướng quy nạp của địa phương. Theo câu nói nổi tiếng của Okay. Murphy sách học máy, thiên vị quy nạp là “giả định về bản chất của việc phân phối dữ liệu.” Trong thời kỳ đầu “học không sâu”, thành kiến quy nạp “liên quan đến tính năng” nhiều hơn, xuất phát từ tính năng thủ công được thiết kế cho các nhiệm vụ cụ thể. Sự thiên vị quy nạp này không phải là một điều xấu, đặc biệt đối với các nhiệm vụ cụ thể trong đó có được kiến thức rất tốt từ các chuyên gia con người, khiến các tính năng được thiết kế trở nên rất hữu ích. Tuy nhiên, từ góc độ khái quát hóa, các tính năng được thiết kế rất khó khái quát hóa cho các nhiệm vụ phổ quát, như phân loại và phân đoạn hình ảnh chung.
Nhưng ngoài sự thiên vị về tính năng, bản thân kiến trúc cũng chứa đựng sự thiên vị quy nạp. ViT là một ví dụ tuyệt vời cho thấy độ lệch quy nạp ít hơn so với các mô hình CNN về mặt hệ thống phân cấp kiến trúc, tính đồng nhất của việc lan truyền, quy mô đại diện và địa phương chú ý. Xem bài viết trung bình trước đây của tôi để thảo luận chi tiết. Tuy nhiên, ViT vẫn là một loại sai lệch quy nạp đặc biệt — địa phương. Khi ViT xử lý một chuỗi mã thông báo bản vá, các pixel trong cùng một bản vá sẽ được mô hình xử lý một cách tự nhiên khác với các pixel từ các bản vá khác nhau. Và đó là nơi mà địa phương đến từ.
Vì vậy, liệu có thể loại bỏ thêm thành kiến quy nạp về địa phương được không? Câu trả lời là có. PiT đề xuất sử dụng “bộ pixel” làm đầu vào với các chiến lược nhúng vị trí (PE) khác nhau: sin-cos, đã học và không có. Nó cho thấy hiệu suất vượt trội so với ViT trong các nhiệm vụ được giám sát, tự giám sát và tạo. Đường ống đề xuất được thể hiện trong hình dưới đây.
Ý tưởng này có vẻ đơn giản và dễ hiểu, và các tác giả khẳng định họ “không giới thiệu một phương pháp mới” ở đây. Tuy nhiên, PiT vẫn cho thấy tiềm năng lớn. Trên các nhiệm vụ phân loại được giám sát CIFAR-100 và ImageNet (giảm kích thước đầu vào xuống 28*28), độ chính xác phân loại tăng hơn 2% so với ViT. Xem bảng dưới đây.
Sự cải thiện tương tự cũng được quan sát thấy trong các nhiệm vụ học tập tự giám sát và nhiệm vụ tạo hình ảnh. Hơn nữa, các tác giả cũng cho thấy xu hướng tăng hiệu suất khi giảm kích thước bản vá từ 8*8 xuống 1*1 (pixel đơn) như sau:
Về mặt mã hóa vị trí.
Như đã chỉ ra ở bài nghiên cứu này, mã hóa vị trí là điều kiện tiên quyết trong các mô hình dựa trên máy biến áp để sắp xếp thứ tự chuỗi mã thông báo đầu vào và cải thiện độ chính xác. Tuy nhiên, PiT cho thấy rằng ngay cả sau khi giảm PE, hiệu suất của mô hình vẫn giảm ở mức tối thiểu:
Tại sao bỏ mã hóa vị trí? Điều này không chỉ bởi vì việc bỏ mã hóa vị trí có nghĩa là giảm thiểu sai lệch địa phương. Nếu chúng ta nghĩ về tính toán tự chú ý theo cách phân tán, nó sẽ làm giảm phần lớn nỗ lực giao tiếp giữa các thiết bị, điều mà chúng ta sẽ thảo luận chi tiết trong phần tiếp theo.
[ad_2]
Source link