[ad_1]
Mọi người sử dụng các mô hình ngôn ngữ lớn cho một loạt các nhiệm vụ, từ dịch một bài viết đến xác định gian lận tài chính. Tuy nhiên, mặc dù các mô hình này có khả năng và tính linh hoạt đáng kinh ngạc, đôi khi chúng vẫn tạo ra các phản hồi không chính xác.
Ngoài ra, các mô hình có thể quá tự tin về câu trả lời sai hoặc không tự tin về câu trả lời đúng, khiến người dùng khó biết được khi nào có thể tin cậy vào mô hình.
Các nhà nghiên cứu thường hiệu chuẩn một mô hình học máy để đảm bảo mức độ tin cậy của nó phù hợp với độ chính xác của nó. Một mô hình được hiệu chuẩn tốt sẽ ít tin cậy hơn về một dự đoán không chính xác và ngược lại. Nhưng vì các mô hình ngôn ngữ lớn (LLM) có thể được áp dụng cho một tập hợp dường như vô tận các tác vụ đa dạng, nên các phương pháp hiệu chuẩn truyền thống không hiệu quả.
Hiện nay, các nhà nghiên cứu từ MIT và Phòng thí nghiệm AI Watson của MIT-IBM đã giới thiệu một phương pháp hiệu chuẩn được thiết kế riêng cho các mô hình ngôn ngữ lớn. Phương pháp của họ, được gọi là Nhiệt kếbao gồm việc xây dựng một mô hình phụ trợ nhỏ hơn chạy trên một mô hình ngôn ngữ lớn để hiệu chỉnh nó.
Nhiệt kế hiệu quả hơn các phương pháp khác — đòi hỏi ít tính toán tốn điện năng hơn — trong khi vẫn bảo toàn được độ chính xác của mô hình và cho phép mô hình đưa ra phản hồi hiệu chỉnh tốt hơn cho các tác vụ mà trước đây chưa từng thấy.
Bằng cách cho phép hiệu chuẩn hiệu quả LLM cho nhiều tác vụ khác nhau, Thermometer có thể giúp người dùng xác định chính xác các tình huống mà mô hình quá tự tin về các dự đoán sai, cuối cùng ngăn họ triển khai mô hình đó trong tình huống có thể xảy ra lỗi.
Maohao Shen, một sinh viên tốt nghiệp ngành kỹ thuật điện và khoa học máy tính (EECS) và là tác giả chính của một nghiên cứu cho biết: “Với Nhiệt kế, chúng tôi muốn cung cấp cho người dùng một tín hiệu rõ ràng để cho họ biết phản hồi của mô hình là chính xác hay không chính xác, theo cách phản ánh sự không chắc chắn của mô hình, để họ biết mô hình đó có đáng tin cậy hay không”. giấy về Nhiệt kế.
Shen tham gia vào bài báo này cùng Gregory Wornell, Giáo sư Kỹ thuật Sumitomo, người đứng đầu Phòng thí nghiệm Tín hiệu, Thông tin và Thuật toán tại Phòng thí nghiệm Nghiên cứu Điện tử và là thành viên của Phòng thí nghiệm AI Watson MIT-IBM; tác giả chính Soumya Ghosh, một nhân viên nghiên cứu tại Phòng thí nghiệm AI Watson MIT-IBM; cũng như những người khác tại MIT và Phòng thí nghiệm AI Watson MIT-IBM. Nghiên cứu này gần đây đã được trình bày tại Hội nghị Quốc tế về Học máy.
Hiệu chuẩn phổ quát
Vì các mô hình học máy truyền thống thường được thiết kế để thực hiện một tác vụ duy nhất, nên việc hiệu chuẩn chúng thường liên quan đến một phương pháp cụ thể cho tác vụ. Mặt khác, vì LLM có tính linh hoạt để thực hiện nhiều tác vụ, nên việc sử dụng phương pháp truyền thống để hiệu chuẩn mô hình đó cho một tác vụ có thể làm giảm hiệu suất của nó đối với tác vụ khác.
Hiệu chuẩn LLM thường liên quan đến việc lấy mẫu từ mô hình nhiều lần để có được các dự đoán khác nhau và sau đó tổng hợp các dự đoán này để có được độ tin cậy được hiệu chuẩn tốt hơn. Tuy nhiên, vì các mô hình này có hàng tỷ tham số nên chi phí tính toán của các phương pháp tiếp cận như vậy tăng lên nhanh chóng.
“Theo một nghĩa nào đó, các mô hình ngôn ngữ lớn mang tính phổ quát vì chúng có thể xử lý nhiều tác vụ khác nhau. Vì vậy, chúng ta cần một phương pháp hiệu chuẩn phổ quát cũng có thể xử lý nhiều tác vụ khác nhau”, Shen nói.
Với Thermometer, các nhà nghiên cứu đã phát triển một kỹ thuật đa năng tận dụng phương pháp hiệu chuẩn cổ điển gọi là thang nhiệt độ để hiệu chuẩn hiệu quả LLM cho một nhiệm vụ mới.
Trong bối cảnh này, “nhiệt độ” là một tham số tỷ lệ được sử dụng để điều chỉnh độ tin cậy của mô hình sao cho phù hợp với độ chính xác dự đoán của nó. Theo truyền thống, người ta xác định nhiệt độ phù hợp bằng cách sử dụng tập dữ liệu xác thực có nhãn của các ví dụ cụ thể cho từng tác vụ.
Vì LLM thường được áp dụng cho các tác vụ mới, nên việc có được các tập dữ liệu được gắn nhãn gần như là không thể. Ví dụ, người dùng muốn triển khai LLM để trả lời các câu hỏi của khách hàng về một sản phẩm mới có thể không có tập dữ liệu chứa các câu hỏi và câu trả lời như vậy.
Thay vì sử dụng tập dữ liệu có nhãn, các nhà nghiên cứu đào tạo một mô hình phụ trợ chạy trên LLM để tự động dự đoán nhiệt độ cần thiết để hiệu chỉnh cho nhiệm vụ mới này.
Họ sử dụng các tập dữ liệu có nhãn của một số nhiệm vụ tiêu biểu để đào tạo mô hình Nhiệt kế, nhưng sau khi được đào tạo, nó có thể khái quát hóa sang các nhiệm vụ mới trong cùng một danh mục mà không cần dữ liệu có nhãn bổ sung.
Mô hình Nhiệt kế được đào tạo trên bộ dữ liệu câu hỏi trắc nghiệm, có thể bao gồm một câu hỏi về đại số và một câu hỏi về y khoa, có thể được sử dụng để hiệu chỉnh LLM để trả lời các câu hỏi về hình học hoặc sinh học chẳng hạn.
Ghosh cho biết: “Mục tiêu đầy tham vọng là nó có thể thực hiện được mọi nhiệm vụ, nhưng chúng tôi vẫn chưa đạt được mục tiêu đó”.
Mô hình Nhiệt kế chỉ cần truy cập một phần nhỏ vào hoạt động bên trong của LLM để dự đoán nhiệt độ phù hợp giúp hiệu chỉnh dự đoán của nó cho các điểm dữ liệu của một nhiệm vụ cụ thể.
Một cách tiếp cận hiệu quả
Quan trọng là kỹ thuật này không yêu cầu chạy nhiều lần và chỉ làm chậm LLM một chút. Thêm vào đó, vì việc thay đổi nhiệt độ không làm thay đổi dự đoán của mô hình nên Thermometer vẫn giữ nguyên độ chính xác.
Khi họ so sánh Thermometer với một số đường cơ sở trên nhiều tác vụ, nó luôn đưa ra các biện pháp đo lường sự không chắc chắn được hiệu chuẩn tốt hơn trong khi đòi hỏi ít tính toán hơn nhiều.
Shen nói thêm: “Miễn là chúng ta đào tạo mô hình Nhiệt kế trên một số lượng tác vụ đủ lớn, thì nó sẽ có thể khái quát hóa tốt trên bất kỳ tác vụ mới nào, giống như một mô hình ngôn ngữ lớn, nó cũng là một mô hình phổ quát”.
Các nhà nghiên cứu cũng phát hiện ra rằng nếu họ đào tạo mô hình Nhiệt kế cho LLM nhỏ hơn, thì có thể áp dụng trực tiếp để hiệu chỉnh LLM lớn hơn trong cùng một họ.
Trong tương lai, họ muốn điều chỉnh Thermometer cho các tác vụ tạo văn bản phức tạp hơn và áp dụng kỹ thuật này cho các LLM lớn hơn. Các nhà nghiên cứu cũng hy vọng định lượng được sự đa dạng và số lượng các tập dữ liệu được gắn nhãn mà người ta cần để đào tạo một mô hình Thermometer để nó có thể khái quát hóa thành một tác vụ mới.
Nghiên cứu này được tài trợ một phần bởi Phòng thí nghiệm AI Watson của MIT-IBM.
[ad_2]
Source link