[ad_1]
Một điều khiến các mô hình ngôn ngữ lớn (LLM) trở nên mạnh mẽ là tính đa dạng của các tác vụ mà chúng có thể được áp dụng. Cùng một mô hình máy học có thể giúp sinh viên tốt nghiệp soạn thảo electronic mail cũng có thể hỗ trợ bác sĩ lâm sàng trong việc chẩn đoán ung thư.
Tuy nhiên, tính ứng dụng rộng rãi của các mô hình này cũng khiến chúng trở nên khó đánh giá theo cách có hệ thống. Sẽ không thể tạo ra một tập dữ liệu chuẩn để kiểm tra một mô hình trên mọi loại câu hỏi mà nó có thể được hỏi.
Trong một giấy mớiCác nhà nghiên cứu của MIT đã áp dụng một cách tiếp cận khác. Họ lập luận rằng, vì con người quyết định thời điểm triển khai các mô hình ngôn ngữ lớn, nên việc đánh giá một mô hình đòi hỏi phải hiểu cách mọi người hình thành niềm tin về khả năng của mô hình đó.
Ví dụ, nghiên cứu sinh phải quyết định xem mô hình có hữu ích trong việc soạn thảo một electronic mail cụ thể hay không và bác sĩ lâm sàng phải xác định trường hợp nào sẽ là tốt nhất để tham khảo mô hình.
Dựa trên ý tưởng này, các nhà nghiên cứu đã tạo ra một khuôn khổ để đánh giá LLM dựa trên sự phù hợp của nó với niềm tin của con người về cách nó sẽ thực hiện một nhiệm vụ nhất định.
Họ giới thiệu một hàm khái quát của con người — một mô hình về cách mọi người cập nhật niềm tin của họ về khả năng của LLM sau khi tương tác với nó. Sau đó, họ đánh giá mức độ phù hợp của LLM với hàm khái quát của con người này.
Kết quả của họ chỉ ra rằng khi các mô hình không khớp với hàm tổng quát của con người, người dùng có thể quá tự tin hoặc không tự tin về nơi triển khai nó, điều này có thể khiến mô hình thất bại bất ngờ. Hơn nữa, do sự không khớp này, các mô hình có khả năng hơn có xu hướng hoạt động kém hơn các mô hình nhỏ hơn trong các tình huống có rủi ro cao.
Đồng tác giả nghiên cứu Ashesh Rambachan, phó giáo sư kinh tế và là nhà nghiên cứu chính tại Phòng thí nghiệm Hệ thống thông tin và quyết định (LIDS), cho biết: “Những công cụ này rất thú vị vì chúng có mục đích chung, nhưng vì chúng có mục đích chung nên chúng sẽ cần sự hợp tác của con người, do đó chúng tôi phải tính đến yếu tố con người trong quá trình thực hiện”.
Rambachan tham gia vào bài báo này cùng với tác giả chính Keyon Vafa, một nghiên cứu sinh sau tiến sĩ tại Đại học Harvard; và Sendhil Mullainathan, một giáo sư tại MIT thuộc khoa Kỹ thuật điện và Khoa học máy tính và Khoa Kinh tế, và là thành viên của LIDS. Nghiên cứu sẽ được trình bày tại Hội nghị quốc tế về Học máy.
Tổng quát của con người
Khi chúng ta tương tác với người khác, chúng ta hình thành niềm tin về những gì chúng ta nghĩ họ biết và không biết. Ví dụ, nếu bạn của bạn khó tính trong việc sửa lỗi ngữ pháp của mọi người, bạn có thể khái quát hóa và nghĩ rằng họ cũng sẽ giỏi về cấu trúc câu, mặc dù bạn chưa bao giờ hỏi họ câu hỏi về cấu trúc câu.
“Các mô hình ngôn ngữ thường có vẻ rất giống con người. Chúng tôi muốn minh họa rằng sức mạnh khái quát của con người này cũng hiện diện trong cách mọi người hình thành niềm tin về các mô hình ngôn ngữ”, Rambachan nói.
Để khởi đầu, các nhà nghiên cứu đã định nghĩa chính thức chức năng khái quát hóa của con người, bao gồm việc đặt câu hỏi, quan sát cách một người hoặc LLM phản ứng, sau đó đưa ra suy luận về cách người hoặc mô hình đó sẽ phản ứng với các câu hỏi liên quan.
Nếu ai đó thấy rằng LLM có thể trả lời đúng các câu hỏi về đảo ngược ma trận, họ cũng có thể cho rằng nó có thể trả lời đúng các câu hỏi về số học đơn giản. Một mô hình không phù hợp với chức năng này — mô hình không hoạt động tốt với các câu hỏi mà con người mong đợi nó trả lời đúng — có thể thất bại khi triển khai.
Với định nghĩa chính thức đó, các nhà nghiên cứu đã thiết kế một cuộc khảo sát để đo lường cách mọi người khái quát hóa khi họ tương tác với LLM và những người khác.
Họ cho những người tham gia khảo sát xem những câu hỏi mà một người hoặc LLM trả lời đúng hay sai và sau đó hỏi họ xem họ có nghĩ rằng người hoặc LLM đó sẽ trả lời đúng một câu hỏi liên quan không. Thông qua khảo sát, họ đã tạo ra một tập dữ liệu gồm gần 19.000 ví dụ về cách con người khái quát về hiệu suất LLM trên 79 nhiệm vụ đa dạng.
Đo độ lệch
Họ phát hiện ra rằng những người tham gia đã làm khá tốt khi được hỏi liệu một người trả lời đúng một câu hỏi có trả lời đúng một câu hỏi liên quan hay không, nhưng họ lại kém hơn nhiều trong việc khái quát hóa về hiệu suất của LLM.
Rambachan cho biết: “Sự khái quát của con người được áp dụng vào các mô hình ngôn ngữ, nhưng điều đó không hiệu quả vì các mô hình ngôn ngữ này thực sự không thể hiện các mô hình chuyên môn như con người”.
Mọi người cũng có nhiều khả năng cập nhật niềm tin của họ về LLM khi nó trả lời sai các câu hỏi hơn là khi nó trả lời đúng các câu hỏi. Họ cũng có xu hướng tin rằng hiệu suất LLM đối với các câu hỏi đơn giản sẽ không ảnh hưởng nhiều đến hiệu suất của nó đối với các câu hỏi phức tạp hơn.
Trong những tình huống mà mọi người coi trọng những phản hồi không chính xác hơn, các mô hình đơn giản hơn hoạt động tốt hơn các mô hình rất lớn như GPT-4.
Ông cho biết: “Các mô hình ngôn ngữ được cải thiện có thể khiến mọi người nghĩ rằng họ sẽ trả lời tốt các câu hỏi liên quan, nhưng thực tế thì không phải vậy”.
Một lời giải thích khả thi cho lý do tại sao con người kém hơn trong việc khái quát hóa các LLM có thể đến từ tính mới lạ của chúng — mọi người có ít kinh nghiệm tương tác với LLM hơn so với những người khác.
Ông nói: “Trong tương lai, có khả năng chúng ta sẽ tiến bộ hơn chỉ nhờ tương tác nhiều hơn với các mô hình ngôn ngữ”.
Để đạt được mục đích này, các nhà nghiên cứu muốn tiến hành thêm các nghiên cứu về cách niềm tin của mọi người về LLM phát triển theo thời gian khi họ tương tác với một mô hình. Họ cũng muốn khám phá cách khái quát hóa của con người có thể được kết hợp vào quá trình phát triển LLM.
Ông cho biết: “Khi chúng tôi đào tạo các thuật toán này ngay từ đầu hoặc cố gắng cập nhật chúng bằng phản hồi của con người, chúng tôi cần tính đến chức năng khái quát của con người khi nghĩ về cách đo lường hiệu suất”.
Trong khi đó, các nhà nghiên cứu hy vọng tập dữ liệu của họ có thể được sử dụng làm chuẩn mực để so sánh hiệu suất của LLM liên quan đến chức năng khái quát của con người, điều này có thể giúp cải thiện hiệu suất của các mô hình được triển khai trong các tình huống thực tế.
“Đối với tôi, đóng góp của bài báo có hai mặt. Đầu tiên là thực tế: Bài báo phát hiện ra một vấn đề quan trọng khi triển khai LLM cho mục đích sử dụng chung của người tiêu dùng. Nếu mọi người không hiểu đúng về thời điểm LLM sẽ chính xác và khi nào chúng sẽ thất bại, thì họ sẽ có nhiều khả năng nhìn thấy lỗi và có lẽ sẽ nản lòng không sử dụng thêm nữa. Điều này làm nổi bật vấn đề liên kết các mô hình với sự hiểu biết của mọi người về khái quát hóa”, Alex Imas, giáo sư khoa học hành vi và kinh tế tại Trường Kinh doanh Sales space của Đại học Chicago, người không tham gia vào công trình này, cho biết. “Đóng góp thứ hai mang tính cơ bản hơn: Việc thiếu khái quát hóa đối với các vấn đề và miền dự kiến giúp có được bức tranh tốt hơn về những gì các mô hình đang làm khi chúng giải quyết một vấn đề ‘đúng’. Nó cung cấp một bài kiểm tra xem LLM có ‘hiểu’ được vấn đề mà chúng đang giải quyết hay không”.
Nghiên cứu này được tài trợ một phần bởi Sáng kiến Khoa học Dữ liệu Harvard và Trung tâm AI Ứng dụng tại Trường Kinh doanh Sales space thuộc Đại học Chicago.
[ad_2]
Source link