[ad_1]
Sử dụng bộ dữ liệu các câu hỏi về kiến thức y khoa cốt lõi, khách quan dựa trên bằng chứng dựa trên Biểu đồ kiến thức độc quyền của Kahun, bản đồ kiến thức y khoa lớn nhất thế giới, Claude3 đã vượt qua GPT-4 về độ chính xác, nhưng các chuyên gia y khoa con người lại vượt trội hơn cả hai mô hình AI
Kahuncông cụ AI lâm sàng dựa trên bằng chứng dành cho các nhà cung cấp dịch vụ chăm sóc sức khỏe, chia sẻ những phát hiện từ một nghiên cứu mới về khả năng y tế của các mô hình ngôn ngữ lớn (LLM) có sẵn. Nghiên cứu đã so sánh độ chính xác y tế của GPT-4 của OpenAI và Claude3-Opus của Anthropic với nhau và với các chuyên gia y tế thông qua các câu hỏi dựa trên kiến thức y tế khách quan được rút ra từ Biểu đồ kiến thức của Kahun. Nghiên cứu cho thấy Claude3 vượt trội hơn GPT-4 về độ chính xác, nhưng cả hai đều kém hơn so với cả các chuyên gia y tế và kiến thức y tế khách quan. Cả hai LLM đều trả lời sai khoảng một phần ba số câu hỏi, trong đó GPT4 trả lời sai gần một nửa số câu hỏi có câu trả lời dựa trên số.
Theo một cuộc khảo sát gần đây, 91 phần trăm của các bác sĩ bày tỏ mối quan tâm về cách chọn mô hình AI tạo sinh chính xác để sử dụng và cho biết họ cần biết tài liệu nguồn của mô hình được tạo ra bởi các bác sĩ hoặc chuyên gia y tế trước khi sử dụng. Các bác sĩ và tổ chức chăm sóc sức khỏe đang sử dụng AI vì khả năng của nó trong các nhiệm vụ hành chính, nhưng để đảm bảo tính chính xác và an toàn của các mô hình này cho các nhiệm vụ lâm sàng, chúng ta cần giải quyết các hạn chế của các mô hình AI tạo sinh.
Bằng cách tận dụng biểu đồ kiến thức độc quyền của mình, bao gồm một biểu diễn có cấu trúc các sự kiện khoa học từ các nguồn được bình duyệt, Kahun đã sử dụng vị thế độc đáo của mình để dẫn đầu một nghiên cứu hợp tác về khả năng hiện tại của hai LLM phổ biến: GPT-4 và Claude3. Bao gồm dữ liệu từ hơn 15.000 bài báo được bình duyệt, Kahun đã tạo ra 105.000 QA y khoa dựa trên bằng chứng (câu hỏi và câu trả lời) được phân loại thành các danh mục số hoặc ngữ nghĩa trải dài trên nhiều chuyên ngành y tế được nhập trực tiếp vào từng LLM.
QA số xử lý các phát hiện tương quan từ một nguồn cho một truy vấn cụ thể (ví dụ: Tỷ lệ mắc chứng khó tiểu ở bệnh nhân nữ bị nhiễm trùng đường tiết niệu) trong khi QA ngữ nghĩa liên quan đến việc phân biệt các thực thể trong các truy vấn y tế cụ thể (ví dụ: Chọn các phân nhóm phổ biến nhất của chứng mất trí). Quan trọng là Kahun đã dẫn dắt nhóm nghiên cứu bằng cách cung cấp cơ sở cho các QA dựa trên bằng chứng giống với các truy vấn ngắn, một dòng mà bác sĩ có thể tự hỏi mình trong các quy trình ra quyết định y tế hàng ngày.
Sau khi phân tích hơn 24.500 phản hồi QA, nhóm nghiên cứu đã phát hiện ra những phát hiện quan trọng sau:
- Claude3 và GPT-4 đều hoạt động tốt hơn về QA ngữ nghĩa (lần lượt là 68,7 và 68,4 phần trăm) so với QA số (lần lượt là 63,7 và 56,7 phần trăm), trong đó Claude3 hoạt động tốt hơn về độ chính xác số.
- Nghiên cứu cho thấy mỗi LLM sẽ tạo ra các đầu ra khác nhau theo từng yêu cầu, nhấn mạnh tầm quan trọng của việc cùng một yêu cầu QA có thể tạo ra những kết quả hoàn toàn trái ngược nhau giữa mỗi mô hình.
- Để xác thực, sáu chuyên gia y tế đã trả lời 100 câu hỏi QA dạng số và vượt qua cả hai LLM với độ chính xác 82,3 phần trăm, so với độ chính xác 64,3 phần trăm của Claude3 và 55,8 phần trăm của GPT-4 khi trả lời những câu hỏi tương tự.
- Nghiên cứu của Kahun cho thấy cả Claude3 và GPT-4 đều xuất sắc trong việc đặt câu hỏi ngữ nghĩa, nhưng cuối cùng lại ủng hộ quan điểm cho rằng các LLM sử dụng chung vẫn chưa đủ khả năng để trở thành trợ lý thông tin đáng tin cậy cho các bác sĩ trong môi trường lâm sàng.
- Nghiên cứu bao gồm tùy chọn “Tôi không biết” để phản ánh các tình huống mà bác sĩ phải thừa nhận sự không chắc chắn. Nghiên cứu tìm thấy tỷ lệ trả lời khác nhau cho mỗi LLM (Số: Claude3-63,66%, GPT-4-96,4%; Ngữ nghĩa: Claude3-94,62%, GPT-4-98,31%). Tuy nhiên, có một mối tương quan không đáng kể giữa độ chính xác và tỷ lệ trả lời cho cả hai LLM, cho thấy khả năng thừa nhận thiếu kiến thức của họ là đáng ngờ. Điều này chỉ ra rằng nếu không có kiến thức trước về lĩnh vực y tế và mô hình, thì độ tin cậy của LLM là đáng ngờ.
Các QA được trích xuất từ Data Graph độc quyền của Kahun, bao gồm hơn 30 triệu thông tin y khoa dựa trên bằng chứng từ các ấn phẩm và nguồn y khoa được bình duyệt ngang hàng, bao gồm các kết nối thống kê và lâm sàng phức tạp trong y học. Giải pháp AI Agent của Kahun cho phép các chuyên gia y tế đặt câu hỏi cụ thể về từng trường hợp và nhận được câu trả lời có căn cứ lâm sàng, được tham chiếu trong tài liệu y khoa. Bằng cách tham chiếu câu trả lời của mình đến kiến thức và giao thức dựa trên bằng chứng, AI Agent nâng cao lòng tin của bác sĩ, do đó cải thiện hiệu quả và chất lượng chăm sóc tổng thể. Giải pháp của công ty khắc phục được những hạn chế của các mô hình AI tạo sinh hiện tại, bằng cách cung cấp thông tin thực tế dựa trên bằng chứng y khoa, đảm bảo tính nhất quán và rõ ràng cần thiết trong việc phổ biến kiến thức y khoa.
“Mặc dù rất thú vị khi lưu ý rằng Claude3 vượt trội hơn GPT-4, nghiên cứu của chúng tôi cho thấy LLM sử dụng chung vẫn chưa thể sánh được với các chuyên gia y tế trong việc giải thích và phân tích các câu hỏi y khoa mà bác sĩ gặp phải hàng ngày. Tuy nhiên, những kết quả này không có nghĩa là LLM không thể được sử dụng cho các câu hỏi lâm sàng. Để AI tạo sinh có thể phát huy hết tiềm năng của mình trong việc thực hiện các nhiệm vụ như vậy, các mô hình này phải kết hợp các nguồn đã được xác minh và cụ thể theo lĩnh vực vào dữ liệu của chúng”, Michal Tzuchman Katz, Tiến sĩ Y khoa, Tổng giám đốc điều hành và Đồng sáng lập của Kahun cho biết. “Chúng tôi rất vui mừng được tiếp tục đóng góp vào sự tiến bộ của AI trong chăm sóc sức khỏe thông qua nghiên cứu của mình và thông qua việc cung cấp giải pháp cung cấp tính minh bạch và bằng chứng cần thiết để hỗ trợ các bác sĩ đưa ra quyết định y khoa”.
Bản thảo đầy đủ của nghiên cứu có thể được tìm thấy tại đây: https://arxiv.org/abs/2406.03855.
Đăng ký nhận tin tức insideAI miễn phí bản tin.
Tham gia cùng chúng tôi trên Twitter: https://twitter.com/InsideBigData1
Tham gia cùng chúng tôi trên LinkedIn: https://www.linkedin.com/company/insideainews/
Tham gia cùng chúng tôi trên Fb: https://www.facebook.com/insideAINEWSNOW
[ad_2]
Source link