[ad_1]
Cách tiếp cận của chúng tôi để phân tích và giảm thiểu rủi ro trong tương lai do các mô hình AI tiên tiến gây ra
Google DeepMind đã liên tục vượt qua các ranh giới của AI, phát triển các mô hình giúp thay đổi hiểu biết của chúng ta về những gì có thể. Chúng tôi tin rằng công nghệ AI trong tương lai sẽ cung cấp cho xã hội những công cụ vô giá để giúp giải quyết những thách thức quan trọng toàn cầu, chẳng hạn như biến đổi khí hậu, phát triển thuốc và năng suất kinh tế. Đồng thời, chúng tôi nhận ra rằng khi chúng tôi tiếp tục nâng cao khả năng của AI, những đột phá này cuối cùng có thể đi kèm với những rủi ro mới ngoài những rủi ro mà các mô hình ngày nay đặt ra.
Hôm nay chúng tôi giới thiệu về chúng tôi Khung An toàn Biên giới – một bộ giao thức để chủ động xác định các khả năng AI trong tương lai có thể gây ra tác hại nghiêm trọng và đưa ra các cơ chế để phát hiện và giảm thiểu chúng. Khung của chúng tôi tập trung vào các rủi ro nghiêm trọng phát sinh từ các khả năng mạnh mẽ ở cấp độ mô hình, chẳng hạn như cơ quan đặc biệt hoặc khả năng mạng phức tạp. Nó được thiết kế để bổ sung cho nghiên cứu liên kết của chúng tôi, nhằm đào tạo các mô hình hành động phù hợp với các giá trị con người và mục tiêu xã hội cũng như bộ trách nhiệm và sự an toàn về AI hiện có của Google. thực tiễn.
Khung này mang tính khám phá và chúng tôi kỳ vọng nó sẽ phát triển đáng kể khi chúng tôi học hỏi từ quá trình triển khai, hiểu sâu hơn về các rủi ro và đánh giá AI cũng như cộng tác với ngành, học viện và chính phủ. Mặc dù những rủi ro này nằm ngoài tầm với của các mô hình hiện tại nhưng chúng tôi hy vọng rằng việc triển khai và cải thiện Khung này sẽ giúp chúng tôi chuẩn bị để giải quyết chúng. Chúng tôi mong muốn khuôn khổ ban đầu này được triển khai đầy đủ vào đầu năm 2025.
Cơ cấu
Phiên bản đầu tiên của Framework được công bố hôm nay được xây dựng trên nghiên cứu TRÊN đánh giá khả năng quan trọng trong các mô hình biên giới và tuân theo cách tiếp cận mới nổi của Mở rộng khả năng chịu trách nhiệm. Framework có ba thành phần chính:
- Xác định các khả năng mà một mô hình có thể có có khả năng gây tổn hại nghiêm trọng. Để làm được điều này, chúng tôi nghiên cứu các con đường mà một mô hình có thể gây ra tác hại nghiêm trọng trong các miền có rủi ro cao, sau đó xác định mức độ khả năng tối thiểu mà một mô hình phải có để đóng vai trò gây ra tác hại đó. Chúng tôi gọi đây là “Essential Functionality Ranges” (CCL) và chúng hướng dẫn cách tiếp cận đánh giá và giảm thiểu của chúng tôi.
- Đánh giá các mô hình biên giới của chúng tôi theo định kỳ để phát hiện khi chúng đạt đến các Cấp độ Năng lực Quan trọng này. Để thực hiện điều này, chúng tôi sẽ phát triển các bộ đánh giá mô hình, được gọi là “đánh giá cảnh báo sớm”, sẽ cảnh báo chúng tôi khi một mô hình đang tiếp cận CCL và chạy chúng đủ thường xuyên để chúng tôi có thể nhận thấy trước khi đạt đến ngưỡng đó.
- Áp dụng kế hoạch giảm nhẹ khi mô hình vượt qua các đánh giá cảnh báo sớm của chúng tôi. Điều này cần tính đến sự cân bằng tổng thể giữa lợi ích và rủi ro cũng như bối cảnh triển khai dự kiến. Những biện pháp giảm nhẹ này sẽ tập trung chủ yếu vào bảo mật (ngăn chặn việc rò rỉ các mô hình) và triển khai (ngăn chặn việc lạm dụng các khả năng quan trọng).
Miền rủi ro và mức độ giảm nhẹ
Bộ Cấp độ năng lực quan trọng ban đầu của chúng tôi dựa trên việc điều tra bốn lĩnh vực: quyền tự chủ, an toàn sinh học, an ninh mạng và nghiên cứu và phát triển máy học (R&D). Nghiên cứu ban đầu của chúng tôi cho thấy khả năng của các mô hình nền tảng trong tương lai có nhiều khả năng gây ra rủi ro nghiêm trọng trong các lĩnh vực này.
Về quyền tự chủ, an ninh mạng và an toàn sinh học, mục tiêu chính của chúng tôi là đánh giá mức độ mà các tác nhân đe dọa có thể sử dụng một mô hình có khả năng nâng cao để thực hiện các hoạt động có hại với hậu quả nghiêm trọng. Đối với R&D học máy, trọng tâm là liệu các mô hình có khả năng như vậy sẽ cho phép phổ biến các mô hình có khả năng quan trọng khác hay cho phép khả năng AI phát triển nhanh chóng và không thể quản lý được. Khi chúng tôi tiến hành nghiên cứu sâu hơn về các lĩnh vực này và các lĩnh vực rủi ro khác, chúng tôi hy vọng các CCL này sẽ phát triển và một số CCL ở cấp độ cao hơn hoặc trong các lĩnh vực rủi ro khác sẽ được thêm vào.
Để cho phép chúng tôi điều chỉnh mức độ giảm nhẹ cho phù hợp với từng CCL, chúng tôi cũng đã phác thảo một tập hợp các biện pháp giảm nhẹ triển khai và bảo mật. Các biện pháp giảm thiểu bảo mật ở cấp độ cao hơn mang lại khả năng bảo vệ tốt hơn trước việc rò rỉ trọng lượng mô hình và các biện pháp giảm nhẹ triển khai ở cấp độ cao hơn cho phép quản lý chặt chẽ hơn các chức năng quan trọng. Tuy nhiên, những biện pháp này cũng có thể làm chậm tốc độ đổi mới và giảm khả năng tiếp cận rộng rãi các năng lực. Tạo ra sự cân bằng tối ưu giữa giảm thiểu rủi ro và thúc đẩy khả năng tiếp cận và đổi mới là điều tối quan trọng đối với sự phát triển có trách nhiệm của AI. Bằng cách cân nhắc lợi ích tổng thể với rủi ro và tính đến bối cảnh phát triển và triển khai mô hình, chúng tôi mong muốn đảm bảo tiến trình AI có trách nhiệm nhằm giải phóng tiềm năng biến đổi đồng thời bảo vệ khỏi những hậu quả không lường trước được.
Đầu tư vào khoa học
Nghiên cứu làm cơ sở cho Khung này còn non trẻ và đang tiến triển nhanh chóng. Chúng tôi đã đầu tư đáng kể vào Nhóm An toàn Biên giới, nhóm điều phối nỗ lực đa chức năng đằng sau Khuôn khổ của chúng tôi. Trách nhiệm của họ là phát triển khoa học đánh giá rủi ro biên giới và cải tiến Khung khổ của chúng tôi dựa trên kiến thức đã được cải thiện của chúng tôi.
Nhóm đã phát triển một bộ đánh giá để đánh giá rủi ro từ các khả năng quan trọng, đặc biệt nhấn mạnh vào các tác nhân LLM tự trị và thử nghiệm nó trên các mô hình hiện đại của chúng tôi. Của họ bài báo gần đây mô tả những đánh giá này cũng khám phá các cơ chế có thể hình thành một tương lai “hệ thống cảnh báo sớm”. Nó mô tả các phương pháp kỹ thuật để đánh giá mức độ thành công của một mô hình đối với một nhiệm vụ mà nó hiện không thực hiện được và cũng bao gồm các dự đoán về khả năng trong tương lai từ một nhóm chuyên gia dự báo.
Tuân thủ các Nguyên tắc AI của chúng tôi
Chúng tôi sẽ xem xét và phát triển Khung này theo định kỳ. Đặc biệt, khi chúng tôi thí điểm Khung và hiểu sâu hơn về các lĩnh vực rủi ro, CCL và bối cảnh triển khai, chúng tôi sẽ tiếp tục công việc hiệu chỉnh các biện pháp giảm nhẹ cụ thể đối với CCL.
Trọng tâm công việc của chúng tôi là của Google Nguyên tắc AI, điều này cam kết chúng tôi theo đuổi lợi ích rộng rãi đồng thời giảm thiểu rủi ro. Khi hệ thống của chúng tôi được cải thiện và khả năng của chúng tăng lên, các biện pháp như Khung An toàn Biên giới sẽ đảm bảo các hoạt động của chúng tôi tiếp tục đáp ứng các cam kết này.
Chúng tôi mong muốn được làm việc với những người khác trong ngành, học viện và chính phủ để phát triển và hoàn thiện Khung này. Chúng tôi hy vọng rằng việc chia sẻ các phương pháp tiếp cận của chúng tôi sẽ tạo điều kiện thuận lợi cho việc làm việc với những người khác nhằm thống nhất các tiêu chuẩn và phương pháp hay nhất nhằm đánh giá mức độ an toàn của các thế hệ mô hình AI trong tương lai.
[ad_2]
Source link