[ad_1]
Các mô hình ngôn ngữ lớn (LLM) chắc chắn đã làm bùng nổ ngành công nghiệp công nghệ. Sự gia tăng nhanh chóng của chúng được thúc đẩy bởi một khối lượng lớn dữ liệu từ Wikipedia, các trang internet, sách, kho tàng các bài báo nghiên cứu và tất nhiên là nội dung người dùng từ các nền tảng truyền thông xã hội yêu thích của chúng ta. Các mô hình dữ liệu và tính toán đang sốt sắng kết hợp dữ liệu đa phương thức từ các thư viện âm thanh và video, và đã sử dụng Hàng chục ngàn của GPU Nvidia trong nhiều tháng để đào tạo các mô hình tiên tiến nhất (SOTA). Tất cả những điều này khiến chúng ta tự hỏi liệu sự tăng trưởng theo cấp số nhân này có thể kéo dài được hay không.
Những thách thức mà các LLM này phải đối mặt là rất nhiều nhưng chúng ta hãy cùng tìm hiểu một số thách thức sau đây.
- Chi phí và khả năng mở rộng: Các mô hình lớn hơn có thể tốn hàng chục triệu đô la để đào tạo và phục vụ, trở thành rào cản đối với việc áp dụng trong nhiều ứng dụng hàng ngày. (Xem Chi phí đào tạo GPT-4)
- Độ bão hòa dữ liệu đào tạo: Các tập dữ liệu công khai sẽ sớm cạn kiệt và có thể cần phải dựa vào nội dung người dùng được tạo chậm. Chỉ các công ty và cơ quan có nguồn nội dung mới ổn định mới có thể tạo ra cải tiến.
- Ảo giác:Các mô hình tạo ra thông tin sai lệch và chưa được chứng thực sẽ là yếu tố ngăn cản người dùng mong đợi sự xác thực từ các nguồn có thẩm quyền trước khi sử dụng cho các ứng dụng nhạy cảm.
- Khám phá những điều chưa biết: LLM hiện đang được sử dụng cho các ứng dụng vượt ra ngoài mục đích ban đầu của chúng. Ví dụ, LLM đã cho thấy khả năng tuyệt vời trong trò chơi, khám phá khoa học và mô hình hóa khí hậu. Chúng ta sẽ cần những cách tiếp cận mới để giải quyết những tình huống phức tạp này.
Trước khi chúng ta bắt đầu quá lo lắng về tương lai, hãy cùng xem xét cách các nhà nghiên cứu AI đang không ngừng làm việc để đảm bảo tiến độ liên tục. Các cải tiến Hỗn hợp chuyên gia (MoE) và Hỗn hợp tác nhân (MoA) cho thấy hy vọng đang ở phía chân trời.
Lần đầu tiên được giới thiệu vào năm 2017, Hỗn hợp các chuyên gia Kỹ thuật này cho thấy nhiều chuyên gia và một mạng lưới gating có thể chọn một nhóm chuyên gia thưa thớt có thể tạo ra kết quả được cải thiện đáng kể với chi phí tính toán thấp hơn. Quyết định gating cho phép tắt các phần lớn của mạng lưới cho phép tính toán có điều kiện và chuyên môn hóa cải thiện hiệu suất cho mô hình ngôn ngữ và các tác vụ dịch máy.
Hình trên cho thấy lớp Combination-of-Consultants được tích hợp trong mạng nơ-ron hồi quy. Lớp gating chỉ kích hoạt hai chuyên gia cho nhiệm vụ và sau đó kết hợp đầu ra của họ.
Mặc dù điều này đã được chứng minh trong một số điểm chuẩn được chọn, nhưng tính toán có điều kiện đã mở ra hướng đi để tiếp tục cải thiện mà không cần phải tăng kích thước mô hình.
Lấy cảm hứng từ MOE, Hỗn hợp các tác nhân Kỹ thuật này tận dụng nhiều LLM để cải thiện kết quả. Vấn đề được định tuyến thông qua nhiều LLM hay còn gọi là các tác nhân nâng cao kết quả ở mỗi giai đoạn và các tác giả đã chứng minh rằng nó tạo ra kết quả tốt hơn với các mô hình nhỏ hơn so với các mô hình SOTA lớn hơn.
Hình minh họa 4 lớp hỗn hợp tác nhân với 3 tác nhân trong mỗi lớp. Việc lựa chọn LLM phù hợp cho mỗi lớp là rất quan trọng để đảm bảo sự hợp tác phù hợp và tạo ra phản hồi chất lượng cao. (Nguồn)
MOA dựa trên thực tế là các LLM hợp tác với nhau sẽ tạo ra kết quả tốt hơn vì chúng có thể kết hợp các phản hồi từ các mô hình khác. Vai trò của các LLM được chia thành các bên đề xuất tạo ra các kết quả đa dạng và các bên tổng hợp có thể kết hợp chúng để tạo ra các phản hồi chất lượng cao. Phương pháp tiếp cận nhiều giai đoạn có thể sẽ làm tăng Thời gian đến Mã thông báo đầu tiên (TTFT), do đó cần phải phát triển các phương pháp tiếp cận giảm thiểu để phù hợp với các ứng dụng rộng rãi.
MOE và MOA có các yếu tố nền tảng tương tự nhưng hoạt động khác nhau. MOE hoạt động theo khái niệm chọn một nhóm chuyên gia để hoàn thành công việc trong đó mạng lưới gating có nhiệm vụ chọn đúng nhóm chuyên gia. MOA hoạt động theo nhóm xây dựng dựa trên công việc của các nhóm trước đó và cải thiện kết quả ở mỗi giai đoạn.
Những cải tiến dành cho MOE và MOA đã tạo ra một con đường cải tiến, trong đó sự kết hợp giữa các thành phần hoặc mô hình chuyên biệt, sự hợp tác và trao đổi thông tin có thể tiếp tục mang lại kết quả tốt hơn ngay cả khi việc mở rộng tuyến tính các tham số mô hình và tập dữ liệu đào tạo không còn đơn giản nữa.
Mặc dù chỉ khi nhìn lại, chúng ta mới biết liệu những đổi mới của LLM có thể tồn tại lâu dài hay không, tôi đã theo dõi các nghiên cứu trong lĩnh vực này để có được những hiểu biết sâu sắc. Khi thấy những gì đang diễn ra ở các trường đại học và viện nghiên cứu, tôi cực kỳ lạc quan về những gì sắp diễn ra. Tôi cảm thấy chúng ta chỉ đang chuẩn bị cho sự tấn công của các khả năng và ứng dụng mới sẽ biến đổi cuộc sống của chúng ta. Chúng ta không biết chúng là gì nhưng chúng ta có thể khá chắc chắn rằng những ngày sắp tới sẽ không làm chúng ta ngạc nhiên.
“Chúng ta có xu hướng đánh giá quá cao tác động của công nghệ trong ngắn hạn và đánh giá thấp tác động trong dài hạn.” – Luật của Amara
[ad_2]
Source link