[ad_1]
Học sâu và bộ não
Các mạng biến áp đa phương thức gần đây, như CLIP (Radford và cộng sự 2021) và LLaVA (Liu và cộng sự 2023), so sánh với bộ não như thế nào? Có sự tương đồng nào giữa sự chú ý trong các mạng lưới này và bộ não không? Trong bài viết này, tôi xem xét các kiến trúc máy biến áp này với cái nhìn về những điểm tương đồng và khác biệt với bộ não của động vật có vú.
Điều nổi bật với tôi là các bộ biến đổi thị giác, CLIP và LLaVA thực hiện một kiểu xử lý tương tự như quá trình xử lý thị giác trước khi chú ý trong não. Quá trình xử lý này được thực hiện trong các phản ứng trực quan tiếp nối ban đầu đối với một kích thích trước khi tái diễn. Mặc dù có thể thực hiện được nhiều việc theo cách tiếp liệu trực tiếp, các nghiên cứu đã chỉ ra rằng quá trình xử lý chú ý trước tiếp tục trong não gặp khó khăn với:
- Phân biệt danh tính hoặc đặc điểm của các loại đối tượng tương tự, đặc biệt khi các đối tượng ở gần nhau hoặc lộn xộn hoặc các đối tượng không tự nhiên hoặc nhân tạo (VanRullen 2007).
- Các nhiệm vụ phức tạp hơn như nhiệm vụ đếm hoặc mê cung hoặc dò đường cong.
- Nhận thức những vật thể khó nhìn thấy hơn, chẳng hạn như nơi khó nhận biết ranh giới của vật thể.
Ngược lại với quá trình xử lý chuyển tiếp nguồn cấp dữ liệu, một trong những điều nổi bật của bộ não là sự phong phú trong sự tương tác giữa các khu vực, điều mà tôi sẽ thảo luận chi tiết hơn trong phần tiếp theo.
Trong hầu hết các kiến trúc học sâu hiện nay, hoạt động được truyền theo một hướng duy nhất, ví dụ: một hình ảnh có thể được cung cấp làm đầu vào cho mạng và sau đó được truyền từ lớp này sang lớp khác cho đến khi bạn nhận được phân loại là đầu ra.
Bộ não thú vị hơn nhiều so với những mô hình tiếp liệu này. Trong hệ thống thị giác, một kích thích ban đầu sẽ lan truyền từ các vùng thị giác cấp thấp hơn đến cấp cao hơn theo kiểu truyền thẳng, sau đó các khu vực cấp cao hơn sẽ gây ảnh hưởng lên các khu vực cấp thấp hơn như mô tả trong Hình 1.
Một số phản hồi này là sự chú ý có ý thức từ trên xuống cho phép chúng ta phân bổ nhiều nguồn lực hơn cho các đối tượng và đặc điểm quan tâm cũng như làm rõ các kích thích phức tạp hoặc mơ hồ. Một phần khác của phản hồi này là tự động và cho phép các khu vực cấp cao hơn truyền vào các khu vực cấp thấp hơn những thông tin mà không thể biết được chỉ theo cách tiếp cận.
Sự chú ý có ý thức từ trên xuống được cho là hỗ trợ ý thức về kích thích thị giác. Nếu không có quyền truy cập có ý thức vào các khu vực cấp thấp hơn mã hóa đường viền và cạnh, chúng ta sẽ không có nhận thức chính xác về mặt không gian về đường viền. Những công việc như dò tìm trong đầu một đường cong hoặc giải mê cung sẽ là không thể.
Một ví dụ về phản hồi vô thức tự động là mã hóa quyền sở hữu biên giới được thấy ở khoảng một nửa số nơ-ron chọn lọc định hướng ở vùng thị giác V2 (Zhou và cộng sự 2000, Williford và von der Heydt 2013). Các nơ-ron này sẽ mã hóa thông tin cục bộ trong khoảng 40 mili giây và ngay sau 10 mili giây sau phản hồi ban đầu này, sẽ kết hợp bối cảnh toàn cầu để giải quyết các tắc nghẽn – lưu giữ thông tin về đối tượng nào đang tạo đường viền bằng cách che nền của chúng.
Một ví dụ khác về phản hồi vô thức này được Poort et al. (2012) sử dụng những hình ảnh như trong Hình 2. Trong vỏ thị giác sơ khai V1 của khỉ Macaque, các tế bào thần kinh sẽ có xu hướng ban đầu (trong vòng 50–75 mili giây kể từ khi trình bày kích thích) chỉ mã hóa các đặc điểm cục bộ trong trường tiếp nhận của chúng (ví dụ: hình vuông màu xanh lá cây). Tuy nhiên, sau khoảng 75 mili giây, chúng sẽ nhận được phản hồi từ các khu vực cấp cao hơn và có xu hướng phản hồi cao hơn khi kết cấu đó thuộc về một hình, chẳng hạn như hình được xác định bằng kết cấu ở trên. Tuy nhiên, điều này xảy ra ngay cả khi sự chú ý bị thu hút khỏi hình vẽ, tuy nhiên, nếu con khỉ chú ý đến hình vẽ thì các tế bào thần kinh trung bình sẽ phản ứng nhiều hơn.
Một cách để xem xét sự tương tác hai chiều này là mỗi nơ-ron tham lam sử dụng liên tục tất cả các tín hiệu dự đoán có sẵn. Ngay cả những khu vực cấp cao hơn cũng có thể dự đoán được, đặc biệt khi đường viền thị giác không tương ứng với các cạnh tương phản bậc một đáng kể.
Với tất cả những cuộc thảo luận về sự chú ý với việc giới thiệu máy biến áp (Vaswani và cộng sự 2017) và với khả năng tạo câu từng từ một, bạn có thể tin rằng máy biến áp có tính lặp lại. Tuy nhiên, không có trạng thái bên trong nào được giữ giữa các bước của máy biến áp, chỉ có đầu ra trước đó được cung cấp làm đầu vào. Vì vậy, khả năng tái phát bị hạn chế và không có tính hai chiều như hiện tượng phổ biến trong não. Máy biến áp có khả năng chú ý đa đầu, giống như có thể tham gia đồng thời vào một số việc cố định (8 trong bài báo gốc). Do đó, bộ biến đổi hình ảnh có thể được coi là tương tự như xử lý chuyển tiếp tiếp liệu có chú ý trước với một số sửa đổi.
Radford và các đồng nghiệp từ OpenAI đã giới thiệu CLIP trong bài báo năm 2021 của họ “Học các mô hình trực quan có thể chuyển đổi từ giám sát ngôn ngữ tự nhiên”. Ý tưởng đằng sau CLIP rất đơn giản và được hiển thị trong Hình 3. Nó lấy một loạt các cặp hình ảnh và chú thích từ Web rồi đưa hình ảnh vào bộ mã hóa hình ảnh và văn bản vào bộ mã hóa văn bản. Sau đó, nó sử dụng sự mất mát để đưa mã hóa hình ảnh và mã hóa văn bản lại gần nhau hơn khi chúng nằm trong cùng một cặp, nếu không thì sự mất mát sẽ làm tăng khoảng cách của các mã hóa. Đây là những gì CLIP mang lại cho bạn: khả năng so sánh sự giống nhau giữa văn bản và hình ảnh. Điều này cho phép nó được sử dụng để phân loại ảnh không chụp, như trong Hình 4. Bản thân CLIP không tạo ra mô tả văn bản từ hình ảnh.
Bộ mã hóa hình ảnh và bộ mã hóa văn bản độc lập, nghĩa là không có cách nào để điều chế theo tác vụ ảnh hưởng đến mã hóa hình ảnh. Điều này có nghĩa là bộ mã hóa hình ảnh phải mã hóa mọi thứ có thể liên quan đến tác vụ. Thông thường, độ phân giải của hình ảnh đầu vào nhỏ, giúp ngăn chặn sự bùng nổ các yêu cầu tính toán và bộ nhớ.
Trợ lý Ngôn ngữ và Thị giác Lớn (LLaVA) (Liu và cộng sự 2023) là một kiến trúc ngôn ngữ và tầm nhìn lớn mở rộng và xây dựng trên CLIP để bổ sung khả năng mô tả và trả lời các câu hỏi về hình ảnh. Kiểu kiến trúc này khiến tôi quan tâm vì nó có thể thực hiện các nhiệm vụ giống như những nhiệm vụ được sử dụng trong Khoa học thần kinh và Tâm lý học.
LLaVA sử dụng mô hình biến đổi tầm nhìn ViT-L/14 được CLIP huấn luyện để mã hóa hình ảnh (Hình 5). Bài báo đầu tiên sử dụng ma trận chiếu tuyến tính đơn W để chuyển đổi mã hóa thành mã thông báo. Các mã thông báo được tính toán từ hình ảnh Hᵥ và hướng dẫn văn bản Hq được cung cấp làm đầu vào. Sau đó, LLaVA có thể tạo phản hồi ngôn ngữ Xₐ một mã thông báo mỗi lần, thêm phản hồi làm đầu vào cho lần lặp tiếp theo.
Tôi sẽ không đi sâu vào chi tiết về cách LLaVA được đào tạo, nhưng thật thú vị khi họ sử dụng ChatGPT để mở rộng chú thích (Xc) trong Hình 5 để tạo thành hướng dẫn (Hq) và phản hồi (dùng để huấn luyện Xₐ) về một hình ảnh và việc sử dụng thông tin hộp giới hạn.
Trong phiên bản 1.5 của LLaVA (Liu và cộng sự 2024), một số cải tiến mà họ đã thực hiện bao gồm:
- Ma trận chiếu tuyến tính W được thay thế bằng perceptron đa lớp
- Độ phân giải hình ảnh được tăng lên bằng cách sử dụng bộ mã hóa hình ảnh lấy hình ảnh có kích thước 336×336 pixel và chia hình ảnh thành các lưới được mã hóa riêng
Sự chú ý theo nhiệm vụ trong não có thể phân bổ động các nguồn lực cho đối tượng, vị trí hoặc tính năng quan tâm, điều này cho phép xử lý thông tin mà nếu không sẽ bị choáng ngợp bởi sự lộn xộn hoặc các đối tượng khác. Trong LLaVA, bộ mã hóa hình ảnh độc lập với các hướng dẫn văn bản, do đó, để thành công, nó cần đảm bảo mọi thông tin có thể hữu ích đều được lưu trữ trong mã thông báo hình ảnh (Hᵥ).
LLaVA và CLIP thiếu hai chiều và tính lặp lại với các trạng thái bên trong, điều này hạn chế quá trình xử lý của chúng. Điều này đặc biệt đúng đối với việc xử lý hình ảnh vì quá trình xử lý hình ảnh được thực hiện độc lập với các hướng dẫn văn bản. Hầu hết các mạng nơ ron tích chập cũng có chung những hạn chế này. Điều này dẫn tôi đến phỏng đoán của tôi:
Phỏng đoán: Hầu hết các mạng biến áp tích chập, biến đổi tầm nhìn và đa phương thức đều bị hạn chế trong quá trình xử lý tương tự như quá trình xử lý hình ảnh tiếp nhận trước chú ý trong não.
Đây không phải là một lời chỉ trích mà là một cái nhìn sâu sắc có thể mang lại nhiều thông tin. Quá trình xử lý Feedforward có thể làm được rất nhiều việc và nhanh chóng. Tuy nhiên, nó không linh hoạt về những tài nguyên nào có thể được sử dụng, điều này có thể dẫn đến tắc nghẽn thông tin trong bối cảnh lộn xộn và không thể mã hóa đủ thông tin cho các tác vụ phức tạp mà không bùng nổ kích thước của mã hóa. Việc tạo ra các mô hình hoạt động theo kiểu tiếp nối là một bước đệm quan trọng vì khó khăn trong việc thêm phép lặp và xử lý hai chiều.
Một số mạng không bị giới hạn ở các mạng chuyển tiếp có chú ý trước, nhưng hiện tại, hầu hết các kiến trúc đều tụt hậu so với kiến trúc của máy biến áp. Chúng bao gồm các mô hình bộ nhớ dài hạn (LSTM) và gần đây hơn là kiến trúc Mamba, có một số lợi ích so với máy biến áp (Cố và Đạo 2024). LSTM mở rộng (Beck và cộng sự 2024, Alkin và cộng sự. 2024) gần đây đã được đề xuất, giúp thu hẹp khoảng cách giữa máy biến áp và LSTM. Các mô hình khuếch tán cũng có một loại lặp lại hạn chế sử dụng hình ảnh làm trạng thái giữa các lần lặp.
B. Alkin, M. Beck, Okay. Pöppel, S. Hochreiter và J. Brandstetter, Vision-LSTM: xLSTM là xương sống tầm nhìn chung (2024), http://arxiv.org/abs/2406.04303.
M. Beck, Okay. Pöppel, M. Spanring, A. Auer, O. Prudnikova, M. Kopp, G. Klambauer, J. Brandstetter, và S. Hochreiter, xLSTM: Bộ nhớ ngắn hạn dài mở rộng (2024), http://arxiv.org/abs/2405.04517
A. Gu và T. Dao. Mamba: Mô hình hóa trình tự thời gian tuyến tính với các không gian trạng thái chọn lọc (2024) http://arxiv.org/abs/2312.00752
H. Liu, C. Li, Y. Li và YJ Lee “Đường cơ sở được cải thiện với Điều chỉnh hướng dẫn trực quan (2024) Tiến trình. của IEEE/CVF CVPR.
H. Liu, C. Li, Q. Wu và YJ Lee, Điều chỉnh hướng dẫn trực quan (2023), https://doi.org/10.48550/arXiv.2304.08485
J. Poort, F. Raudies, A. Wannig, VAF Lamme, H. Neumann và PR Roelfsema. Vai trò của sự chú ý trong việc phân chia hình-mặt đất ở các vùng V1 và V4 của vỏ thị giác (2012) Tế bào thần kinh
A. Radford, JW Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin và J. Clark. Học các mô hình trực quan có thể chuyển đổi từ giám sát ngôn ngữ tự nhiên (2021) ICML
R. VanRullen, Sức mạnh của việc quét chuyển tiếp nguồn cấp dữ liệu (2007) Những tiến bộ trong tâm lý học nhận thức
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, Ł. Kaiser và tôi. Polosukhin, Sự chú ý là tất cả những gì bạn cần (2017) NeurIP
JR Williford và R. von der Heydt, Mã hóa quyền sở hữu biên giới (2013) Học thuật
H. Chu, HS Friedman và R. von der Heydt. “Mã hóa quyền sở hữu biên giới trong Monkey Visual Cortex (2000) Tạp chí khoa học thần kinh
[ad_2]
Source link