[ad_1]
Lý thuyết về tâm trí là một dấu hiệu đặc trưng của trí thông minh cảm xúc và xã hội, cho phép chúng ta suy ra ý định của mọi người cũng như gắn kết và đồng cảm với nhau. Hầu hết trẻ em học được những kỹ năng này trong khoảng từ ba đến năm tuổi.
Các nhà nghiên cứu đã thử nghiệm hai dòng mô hình ngôn ngữ lớn, GPT-3.5 của OpenAI và GPT-4 và ba phiên bản của Meta lạc đà không bướu, trong các nhiệm vụ được thiết kế để kiểm tra lý thuyết về tâm trí ở con người, bao gồm xác định những niềm tin sai lầm, nhận ra những hành vi sai trái và hiểu những gì đang được ngụ ý thay vì nói trực tiếp. Họ cũng đã kiểm tra 1.907 người tham gia để so sánh các nhóm điểm.
Nhóm đã tiến hành năm loại thử nghiệm. Nhiệm vụ đầu tiên, gợi ý, được thiết kế để đo lường khả năng của một người trong việc suy ra ý định thực sự của người khác thông qua những nhận xét gián tiếp. Nhiệm vụ thứ hai, nhiệm vụ về niềm tin sai lầm, đánh giá xem liệu ai đó có thể suy luận rằng người khác có thể được cho là sẽ tin vào điều gì đó mà họ tình cờ biết là không phải như vậy hay không. Một bài kiểm tra khác đo khả năng nhận biết khi nào ai đó đang phạm sai lầm, trong khi bài kiểm tra thứ tư bao gồm kể những câu chuyện kỳ lạ, trong đó nhân vật chính làm điều gì đó bất thường, để đánh giá xem liệu ai đó có thể giải thích sự tương phản giữa những gì được nói và những gì đã được nói hay không. có nghĩa là. Họ cũng bao gồm một bài kiểm tra xem liệu mọi người có thể hiểu được sự mỉa mai hay không.
Các mô hình AI được thực hiện mỗi bài kiểm tra 15 lần trong các cuộc trò chuyện riêng biệt để chúng xử lý từng yêu cầu một cách độc lập và phản hồi của chúng được tính điểm theo cách tương tự được sử dụng cho con người. Sau đó, các nhà nghiên cứu đã kiểm tra những người tình nguyện và so sánh hai bộ điểm số.
Cả hai phiên bản GPT đều thực hiện bằng hoặc đôi khi cao hơn mức trung bình của con người trong các nhiệm vụ liên quan đến yêu cầu gián tiếp, định hướng sai và niềm tin sai lầm, trong khi GPT-4 vượt trội hơn con người trong các bài kiểm tra câu chuyện trớ trêu, gợi ý và kỳ lạ. Ba mô hình của Llama 2 hoạt động dưới mức trung bình của con người.
Tuy nhiên, Llama 2, mô hình lớn nhất trong số ba mô hình Meta được thử nghiệm, hoạt động tốt hơn con người khi nhận ra các tình huống giả, trong khi GPT liên tục đưa ra phản hồi không chính xác. Các tác giả tin rằng điều này là do GPT thường không thích đưa ra kết luận về các ý kiến, bởi vì các mô hình phần lớn phản hồi rằng không có đủ thông tin để họ trả lời theo cách này hay cách khác.
[ad_2]
Source link