[ad_1]
Làm thế nào các hội nghị thượng đỉnh ở Seoul, Pháp và xa hơn nữa có thể thúc đẩy hợp tác quốc tế về an toàn AI biên giới
Năm ngoái, Chính phủ Vương quốc Anh đã tổ chức Hội nghị thượng đỉnh toàn cầu lớn đầu tiên về an toàn AI ở biên giới tại Bletchley Park. Nó tập trung sự chú ý của thế giới vào tiến bộ nhanh chóng ở lĩnh vực phát triển AI và đưa ra hành động quốc tế cụ thể để ứng phó với những rủi ro tiềm ẩn trong tương lai, bao gồm cả Tuyên bố Bletchley; Viện An toàn AI mới; và Báo cáo khoa học quốc tế về an toàn AI tiên tiến.
Sáu tháng kể từ Bletchley, cộng đồng quốc tế có cơ hội phát huy động lực đó và thúc đẩy hợp tác toàn cầu hơn nữa tại Hội nghị thượng đỉnh AI Seoul tuần này. Bên dưới, chúng tôi chia sẻ một số suy nghĩ về cách hội nghị thượng đỉnh – và những hội nghị trong tương lai – có thể thúc đẩy tiến trình hướng tới một cách tiếp cận chung, toàn cầu đối với vấn đề an toàn AI tiên phong.
Khả năng của AI tiếp tục phát triển với tốc độ chóng mặt
Kể từ Bletchley, đã có sự đổi mới và tiến bộ mạnh mẽ trên toàn bộ lĩnh vực, bao gồm cả từ Google DeepMind. AI tiếp tục thúc đẩy những đột phá trong các lĩnh vực khoa học quan trọng, với công nghệ mới của chúng tôi AlphaFold 3 mô hình dự đoán cấu trúc và tương tác của mọi phân tử sự sống với độ chính xác chưa từng có. Công việc này sẽ giúp thay đổi hiểu biết của chúng ta về thế giới sinh học và đẩy nhanh quá trình khám phá thuốc. Đồng thời, của chúng tôi Gia đình người mẫu Song Tử đã làm cho các sản phẩm được hàng tỷ người trên thế giới sử dụng trở nên hữu ích và dễ tiếp cận hơn. Chúng tôi cũng đang nỗ lực cải thiện cách các mô hình của chúng tôi nhận thức, suy luận và tương tác, đồng thời gần đây đã chia sẻ tiến trình của chúng tôi trong việc xây dựng tương lai của trợ lý AI với Dự án Astra.
Tiến bộ về khả năng AI này hứa hẹn sẽ cải thiện cuộc sống của nhiều người nhưng cũng đặt ra những câu hỏi mới cần được giải quyết một cách hợp tác trong một số lĩnh vực an toàn quan trọng. Google DeepMind đang nỗ lực xác định và giải quyết những thách thức này thông qua nghiên cứu tiên phong về an toàn. Chỉ trong vài tháng vừa qua, chúng tôi đã đã chia sẻ cách tiếp cận đang phát triển của chúng tôi để phát triển một bộ đánh giá toàn diện về an toàn và trách nhiệm cho các mẫu xe tiên tiến của chúng tôi, bao gồm nghiên cứu sớm đánh giá các khả năng quan trọng như lừa dối, an ninh mạng, tự phổ biến vũ khí hạt nhân và tự suy luận. Chúng tôi cũng đã đưa ra bản khám phá chuyên sâu về sắp xếp các trợ lý AI tiên tiến trong tương lai với những giá trị và lợi ích của con người. Ngoài LLM, gần đây chúng tôi đã chia sẻ cách tiếp cận của mình với an toàn sinh học vì AlphaFold 3.
Công việc này được thúc đẩy bởi niềm tin của chúng tôi rằng chúng tôi cần đổi mới về an toàn và quản trị cũng nhanh như đổi mới về năng lực – và cả hai việc này phải được thực hiện track track, liên tục thông báo và củng cố lẫn nhau.
Xây dựng sự đồng thuận quốc tế về rủi ro AI biên giới
Tối đa hóa lợi ích từ các hệ thống AI tiên tiến đòi hỏi phải xây dựng sự đồng thuận quốc tế về các vấn đề an toàn biên giới quan trọng, bao gồm dự đoán và chuẩn bị cho những rủi ro mới ngoài những rủi ro mà các mô hình ngày nay đặt ra. Tuy nhiên, do mức độ không chắc chắn cao về những rủi ro tiềm ẩn trong tương lai này, nên các nhà hoạch định chính sách cần có một quan điểm độc lập, có cơ sở khoa học rõ ràng.
Đó là lý do tại sao việc ra mắt sản phẩm tạm thời mới Báo cáo khoa học quốc tế về sự an toàn của AI tiên tiến là một phần quan trọng của Hội nghị thượng đỉnh AI Seoul – và chúng tôi mong muốn gửi bằng chứng từ nghiên cứu của mình vào cuối năm nay. Theo thời gian, loại nỗ lực này có thể trở thành đầu vào trung tâm cho quá trình hội nghị thượng đỉnh và nếu thành công, chúng tôi tin rằng nó sẽ có trạng thái lâu dài hơn, được mô hình hóa lỏng lẻo dựa trên chức năng của Hội đồng liên chính phủ về biến đổi khí hậu. Đây sẽ là một đóng góp quan trọng cho cơ sở bằng chứng mà các nhà hoạch định chính sách trên khắp thế giới cần để cung cấp thông tin cho hành động quốc tế.
Chúng tôi tin rằng những hội nghị thượng đỉnh về AI này có thể cung cấp một diễn đàn thường xuyên nhằm xây dựng sự đồng thuận quốc tế và cách tiếp cận chung, phối hợp trong quản trị. Việc duy trì sự tập trung duy nhất vào an toàn biên giới cũng sẽ đảm bảo những cuộc triệu tập này mang tính bổ sung và không trùng lặp với các nỗ lực quản trị quốc tế khác.
Thiết lập các phương pháp thực hành tốt nhất trong đánh giá và khuôn khổ quản trị mạch lạc
Đánh giá là một thành phần quan trọng cần thiết để đưa ra các quyết định quản trị AI. Chúng cho phép chúng tôi đo lường khả năng, hành vi và tác động của hệ thống AI, đồng thời là đầu vào quan trọng để đánh giá rủi ro và thiết kế các biện pháp giảm nhẹ thích hợp. Tuy nhiên, khoa học về đánh giá an toàn AI tiên tiến vẫn còn ở giai đoạn đầu phát triển.
Đây là lý do tại sao Diễn đàn mô hình biên giới (FMF), được Google ra mắt cùng với các phòng thí nghiệm AI hàng đầu khác, đang hợp tác với Viện An toàn AI ở Hoa Kỳ và Vương quốc Anh cũng như các bên liên quan khác về các phương pháp hay nhất để đánh giá các mô hình biên giới. Các hội nghị thượng đỉnh về AI có thể giúp mở rộng quy mô công việc này ra quốc tế và giúp tránh sự chắp vá của các cơ chế quản lý và thử nghiệm quốc gia trùng lặp hoặc xung đột với nhau. Điều quan trọng là chúng ta phải tránh tình trạng phân mảnh có thể vô tình gây tổn hại đến sự an toàn hoặc sự đổi mới.
Viện An toàn AI của Hoa Kỳ và Vương quốc Anh đã đồng ý rồi để xây dựng một cách tiếp cận chung để kiểm tra an toàn, bước quan trọng đầu tiên hướng tới sự phối hợp tốt hơn. Chúng tôi nghĩ rằng theo thời gian sẽ có cơ hội để xây dựng dựa trên điều này hướng tới một cách tiếp cận chung, toàn cầu. Ưu tiên ban đầu của Hội nghị thượng đỉnh Seoul có thể là thống nhất lộ trình cho nhiều bên hợp tác phát triển và tiêu chuẩn hóa các tiêu chuẩn và phương pháp tiếp cận đánh giá AI tiên tiến.
Điều quan trọng nữa là phát triển các khuôn khổ chung để quản lý rủi ro. Để đóng góp cho những cuộc thảo luận này, gần đây chúng tôi đã giới thiệu phiên bản đầu tiên của Khung An toàn Biên giới, một bộ giao thức để chủ động xác định các khả năng AI trong tương lai có thể gây ra tác hại nghiêm trọng và đưa ra các cơ chế để phát hiện và giảm thiểu chúng. Chúng tôi kỳ vọng Khung này sẽ phát triển đáng kể khi chúng tôi học hỏi từ quá trình triển khai, hiểu sâu hơn về rủi ro và đánh giá AI cũng như cộng tác với ngành, học viện và chính phủ. Theo thời gian, chúng tôi hy vọng rằng việc chia sẻ các phương pháp tiếp cận của chúng tôi sẽ tạo điều kiện thuận lợi cho việc làm việc với những người khác nhằm thống nhất các tiêu chuẩn và phương pháp hay nhất nhằm đánh giá mức độ an toàn của các thế hệ mô hình AI trong tương lai.
Hướng tới một cách tiếp cận toàn cầu về an toàn AI biên giới
Nhiều rủi ro tiềm ẩn có thể phát sinh từ những tiến bộ ở lĩnh vực AI mang tính chất toàn cầu. Khi chúng tôi tiến tới Hội nghị thượng đỉnh AI Seoul và hướng tới các hội nghị thượng đỉnh trong tương lai ở Pháp và xa hơn nữa, chúng tôi rất vui mừng trước cơ hội thúc đẩy hợp tác toàn cầu về an toàn AI tiên tiến. Chúng tôi hy vọng rằng những hội nghị thượng đỉnh này sẽ cung cấp một diễn đàn dành riêng cho sự tiến bộ hướng tới một cách tiếp cận chung, toàn cầu. Làm đúng điều này là một bước quan trọng để mở ra những lợi ích to lớn của AI cho xã hội.
[ad_2]
Source link