[ad_1]
Hiệu suất tuyệt vời của các mô hình ngôn ngữ lớn (LLM) như ChatGPT đã gây chấn động thế giới. Bước đột phá này được tạo ra nhờ phát minh ra kiến trúc Transformer, một kiến trúc đơn giản và có khả năng mở rộng đáng ngạc nhiên. Kiến trúc này vẫn được xây dựng từ các mạng nơ-ron học sâu. Điểm bổ sung chính là cơ chế được gọi là “chú ý” ngữ cảnh hóa từng mã thông báo từ. Hơn nữa, tính music music chưa từng có của nó mang lại cho LLM khả năng mở rộng lớn và do đó, độ chính xác ấn tượng sau khi đào tạo qua hàng tỷ tham số.
Sự đơn giản mà kiến trúc Transformer đã chứng minh thực tế có thể so sánh với máy Turing. Sự khác biệt là máy Turing kiểm soát những gì máy có thể làm ở mỗi bước. Tuy nhiên, Transformer giống như một hộp đen ma thuật, học từ dữ liệu đầu vào khổng lồ thông qua tối ưu hóa tham số. Các nhà nghiên cứu và nhà khoa học vẫn rất quan tâm đến việc khám phá tiềm năng của nó và bất kỳ hàm ý lý thuyết nào để nghiên cứu tâm trí con người.
Trong bài viết này, trước tiên chúng ta sẽ thảo luận về bốn tính năng chính của kiến trúc Transformer: nhúng từ, cơ chế chú ý, dự đoán từ đơn và khả năng khái quát hóa như mở rộng đa phương thức và học chuyển giao. Mục đích là tập trung vào lý do tại sao kiến trúc này lại hiệu quả như vậy thay vì cách xây dựng nó (mà độc giả có thể tìm thấy nhiều…
[ad_2]
Source link