Tin tức MIT: Cách đánh giá độ tin cậy của mô hình AI đa năng trước khi triển khai

[ad_1]

Một kỹ thuật mới cho phép người dùng so sánh nhiều mô hình lớn và chọn mô hình phù hợp nhất với nhiệm vụ của họ.

Các mô hình nền tảng là các mô hình học sâu khổng lồ đã được đào tạo trước trên một lượng lớn dữ liệu mục đích chung, không có nhãn. Chúng có thể được áp dụng cho nhiều tác vụ khác nhau, như tạo hình ảnh hoặc trả lời câu hỏi của khách hàng. Nhưng các mô hình này, đóng vai trò là xương sống cho các công cụ trí tuệ nhân tạo mạnh mẽ như ChatGPT và DALL-E, có thể cung cấp thông tin không chính xác hoặc gây hiểu lầm. Trong tình huống quan trọng đối với sự an toàn, chẳng hạn như người đi bộ đang đến gần một chiếc xe tự lái, những sai lầm này có thể gây ra hậu quả nghiêm trọng.

Để giúp ngăn ngừa những sai lầm như vậy, các nhà nghiên cứu từ MIT và Phòng thí nghiệm AI Watson của MIT-IBM đã phát triển một kỹ thuật để ước tính độ tin cậy của các mô hình nền tảng trước khi chúng được triển khai cho một nhiệm vụ cụ thể. Họ thực hiện điều này bằng cách xem xét một tập hợp các mô hình nền tảng hơi khác nhau. Sau đó, họ sử dụng thuật toán của mình để đánh giá tính nhất quán của các biểu diễn mà mỗi mô hình học được về cùng một điểm dữ liệu thử nghiệm. Nếu các biểu diễn nhất quán, điều đó có nghĩa là mô hình đáng tin cậy.

Khi họ so sánh kỹ thuật của mình với các phương pháp cơ sở hiện đại, phương pháp này có hiệu quả hơn trong việc nắm bắt độ tin cậy của các mô hình nền tảng trên nhiều tác vụ phân loại hạ nguồn.

Ai đó có thể sử dụng kỹ thuật này để quyết định xem một mô hình có nên được áp dụng trong một bối cảnh nhất định hay không, mà không cần phải thử nghiệm nó trên một tập dữ liệu thực tế. Điều này có thể đặc biệt hữu ích khi các tập dữ liệu có thể không thể truy cập được do các vấn đề về quyền riêng tư, chẳng hạn như trong các bối cảnh chăm sóc sức khỏe. Ngoài ra, kỹ thuật này có thể được sử dụng để xếp hạng các mô hình dựa trên điểm tin cậy, cho phép người dùng chọn mô hình tốt nhất cho nhiệm vụ của họ.

“Tất cả các mô hình đều có thể sai, nhưng các mô hình biết khi nào chúng sai thì hữu ích hơn. Vấn đề định lượng sự không chắc chắn hoặc độ tin cậy trở nên khó khăn hơn đối với các mô hình nền tảng này vì các biểu diễn trừu tượng của chúng khó so sánh. Phương pháp của chúng tôi cho phép định lượng mức độ tin cậy của một mô hình biểu diễn đối với bất kỳ dữ liệu đầu vào nào được đưa ra”, tác giả chính Navid Azizan, Trợ lý Giáo sư Esther và Harold E. Edgerton tại Khoa Kỹ thuật Cơ khí MIT và Viện Dữ liệu, Hệ thống và Xã hội (IDSS) và là thành viên của Phòng thí nghiệm Hệ thống Thông tin và Quyết định (LIDS) cho biết.

Ông tham gia vào một bài báo về công trình này cùng với tác giả chính Younger-Jin Park, một sinh viên tốt nghiệp LIDS; Hao Wang, một nhà khoa học nghiên cứu tại Phòng thí nghiệm AI Watson của MIT-IBM; và Shervin Ardeshir, một nhà khoa học nghiên cứu cao cấp tại Netflix. Bài báo sẽ được trình bày tại Hội nghị về Sự không chắc chắn trong Trí tuệ nhân tạo.

Đo lường sự đồng thuận

Các mô hình học máy truyền thống được đào tạo để thực hiện một nhiệm vụ cụ thể. Các mô hình này thường đưa ra dự đoán cụ thể dựa trên đầu vào. Ví dụ, mô hình có thể cho bạn biết một hình ảnh nhất định có chứa mèo hay chó. Trong trường hợp này, đánh giá độ tin cậy có thể là vấn đề xem xét dự đoán cuối cùng để xem mô hình có đúng không.

Nhưng các mô hình nền tảng thì khác. Mô hình được đào tạo trước bằng dữ liệu chung, trong bối cảnh mà người tạo ra nó không biết tất cả các tác vụ hạ nguồn mà nó sẽ được áp dụng. Người dùng điều chỉnh nó cho các tác vụ cụ thể của họ sau khi nó đã được đào tạo. Không giống như các mô hình học máy truyền thống, các mô hình nền tảng không đưa ra các đầu ra cụ thể như nhãn “mèo” hoặc “chó”. Thay vào đó, chúng tạo ra một biểu diễn trừu tượng dựa trên một điểm dữ liệu đầu vào. Để đánh giá độ tin cậy của một mô hình nền tảng, các nhà nghiên cứu đã sử dụng phương pháp tiếp cận tổng hợp bằng cách đào tạo một số mô hình có chung nhiều thuộc tính nhưng hơi khác nhau.

“Ý tưởng của chúng tôi giống như việc đo lường sự đồng thuận. Nếu tất cả các mô hình nền tảng đó đưa ra các biểu diễn nhất quán cho bất kỳ dữ liệu nào trong tập dữ liệu của chúng tôi, thì chúng tôi có thể nói rằng mô hình này là đáng tin cậy”, Park nói.

Nhưng họ gặp phải một vấn đề: Làm sao họ có thể so sánh các biểu diễn trừu tượng?

Ông nói thêm: “Những mô hình này chỉ đưa ra một vectơ bao gồm một số con số nên chúng ta không thể dễ dàng so sánh chúng”.

Họ giải quyết vấn đề này bằng một ý tưởng gọi là tính nhất quán lân cận. Đối với cách tiếp cận của họ, các nhà nghiên cứu chuẩn bị một tập hợp các điểm tham chiếu đáng tin cậy để thử nghiệm trên tập hợp các mô hình. Sau đó, đối với mỗi mô hình, họ điều tra các điểm tham chiếu nằm gần biểu diễn điểm thử nghiệm của mô hình đó. Bằng cách xem xét tính nhất quán của các điểm lân cận, họ có thể ước tính độ tin cậy của các mô hình.

Căn chỉnh các biểu diễn

Các mô hình nền tảng ánh xạ các điểm dữ liệu vào cái được gọi là không gian biểu diễn. Một cách để nghĩ về không gian này là như một hình cầu. Mỗi mô hình ánh xạ các điểm dữ liệu tương tự vào cùng một phần của hình cầu của nó, do đó hình ảnh của mèo sẽ ở một nơi và hình ảnh của chó sẽ ở một nơi khác. Nhưng mỗi mô hình sẽ ánh xạ các loài động vật khác nhau trong hình cầu của riêng nó, do đó trong khi mèo có thể được nhóm lại gần Cực Nam của một hình cầu, thì một mô hình khác có thể ánh xạ mèo ở đâu đó ở Bắc bán cầu.

Các nhà nghiên cứu sử dụng các điểm lân cận như mỏ neo để căn chỉnh các quả cầu đó để họ có thể làm cho các biểu diễn có thể so sánh được. Nếu các điểm lân cận của một điểm dữ liệu nhất quán trên nhiều biểu diễn, thì người ta nên tự tin về độ tin cậy của đầu ra của mô hình cho điểm đó.

Khi họ thử nghiệm phương pháp này trên nhiều nhiệm vụ phân loại, họ thấy rằng nó nhất quán hơn nhiều so với các đường cơ sở. Thêm vào đó, nó không bị vấp ngã bởi các điểm thử thách khiến các phương pháp khác thất bại. Hơn nữa, phương pháp của họ có thể được sử dụng để đánh giá độ tin cậy cho bất kỳ dữ liệu đầu vào nào, do đó, người ta có thể đánh giá mức độ hiệu quả của một mô hình đối với một loại cá nhân cụ thể, chẳng hạn như bệnh nhân có một số đặc điểm nhất định.

Wang cho biết: “Ngay cả khi tất cả các mô hình đều có hiệu suất trung bình nhìn chung, theo quan điểm cá nhân, bạn sẽ thích mô hình phù hợp nhất với cá nhân đó”.

Tuy nhiên, một hạn chế xuất phát từ thực tế là họ phải đào tạo một tập hợp các mô hình nền tảng, điều này tốn kém về mặt tính toán. Trong tương lai, họ có kế hoạch tìm ra những cách hiệu quả hơn để xây dựng nhiều mô hình, có thể bằng cách sử dụng các nhiễu loạn nhỏ của một mô hình duy nhất.

Công trình này được tài trợ một phần bởi Phòng thí nghiệm AI Watson của MIT-IBM, MathWorks và Amazon.

Đăng ký nhận tin tức insideAI miễn phí bản tin.

Tham gia cùng chúng tôi trên Twitter: https://twitter.com/InsideBigData1

Tham gia cùng chúng tôi trên LinkedIn: https://www.linkedin.com/company/insideainews/

Tham gia cùng chúng tôi trên Fb: https://www.facebook.com/insideAINEWSNOW

[ad_2]

Source link

Nghiên cứu đồng hành của Cognizant & Oxford Economics với Báo cáo “Công việc mới, Thế giới mới” cho thấy sự lạc quan thận trọng trong các doanh nghiệp áp dụng AI

Deepfakes: Trò lừa đảo AI mà bạn không ngờ tới

6 cách AI cải thiện chất lượng ứng dụng bán lẻ

Sự khác biệt giữa ANN, CNN và RNN

Quy trình mua hàng để thanh toán & cách tối ưu hóa chu trình P2P

AI và Nguồn nhân lực: Chuyển đổi Tương lai của Quản lý Lực lượng lao động

Giá InVideo, Ưu điểm Nhược điểm, Tính năng, Các lựa chọn thay thế

Đi sâu vào AutoGen và Multi-Agent Frameworks | của Matthew Gunton | Tháng 6, 2024

Most Popular

Sự khác biệt giữa ANN, CNN và RNN

Quy trình mua hàng để thanh toán & cách tối ưu hóa chu trình P2P

AI và Nguồn nhân lực: Chuyển đổi Tương lai của Quản lý Lực lượng lao động

Our Picks

Google cuối cùng cũng hành động để hạn chế deepfake không có sự đồng thuận

Nghiên cứu đồng hành của Cognizant & Oxford Economics với Báo cáo “Công việc mới, Thế giới mới” cho thấy sự lạc quan thận trọng trong các doanh nghiệp áp dụng AI

Làm thế nào để truy cập mô hình GitHub trong vài bước?

Tin tức MIT: Cách đánh giá độ tin cậy của mô hình AI đa năng trước khi triển khai

Related Posts