Lập bản đồ việc sử dụng sai mục đích AI tạo ra

[ad_1]

Trách nhiệm & An toàn

Được phát hành: Ngày 2 tháng 8 năm 2024
Tác giả: Nahema Marchal và Rachel Xu

Nghiên cứu mới phân tích việc sử dụng sai AI tạo ra đa phương thức hiện nay, nhằm giúp xây dựng các công nghệ an toàn hơn và có trách nhiệm hơn

Các mô hình trí tuệ nhân tạo (AI) có khả năng tạo ra hình ảnh, văn bản, âm thanh, video và nhiều thứ khác đang mở ra kỷ nguyên mới về sáng tạo và cơ hội thương mại. Tuy nhiên, khi các khả năng này phát triển, khả năng sử dụng sai mục đích, bao gồm thao túng, gian lận, bắt nạt hoặc quấy rối cũng tăng theo.

Như là một phần của cam kết của chúng tôi để phát triển và sử dụng AI một cách có trách nhiệm, chúng tôi đã xuất bản một giấy mớihợp tác với Ghép hình Và Google.orgphân tích cách các công nghệ AI tạo ra đang bị sử dụng sai mục đích hiện nay. Các nhóm trên khắp Google đang sử dụng nghiên cứu này và các nghiên cứu khác để phát triển các biện pháp bảo vệ tốt hơn cho các công nghệ AI tạo ra của chúng tôi, cùng với các sáng kiến an toàn khác.

Chúng tôi đã cùng nhau thu thập và phân tích gần 200 báo cáo truyền thông ghi lại các sự cố sử dụng sai mục đích công khai, được công bố từ tháng 1 năm 2023 đến tháng 3 năm 2024. Từ các báo cáo này, chúng tôi đã xác định và phân loại các chiến thuật phổ biến để sử dụng sai mục đích AI tạo ra và tìm ra các mô hình mới về cách thức khai thác hoặc xâm phạm các công nghệ này.

Bằng cách làm rõ các mối đe dọa và chiến thuật hiện tại được sử dụng trên nhiều loại đầu ra AI tạo ra khác nhau, công việc của chúng tôi có thể giúp định hình quản trị AI và hướng dẫn các công ty như Google và các công ty khác đang xây dựng công nghệ AI trong việc phát triển các chiến lược giảm thiểu và đánh giá an toàn toàn diện hơn.

Làm nổi bật các loại lạm dụng chính

Trong khi các công cụ AI tạo ra là phương tiện độc đáo và hấp dẫn để nâng cao khả năng sáng tạo, khả năng tạo ra nội dung thực tế, tùy chỉnh có khả năng bị kẻ xấu sử dụng theo những cách không phù hợp.

Bằng cách phân tích các báo cáo phương tiện truyền thông, chúng tôi đã xác định được hai loại chính của các chiến thuật sử dụng sai AI tạo sinh: khai thác các khả năng AI tạo sinh và xâm phạm các hệ thống AI tạo sinh. Các ví dụ về các công nghệ đang bị khai thác bao gồm tạo ra các mô tả chân thực về hình ảnh con người để mạo danh các nhân vật công chúng; trong khi các trường hợp công nghệ bị xâm phạm bao gồm ‘bẻ khóa’ để loại bỏ các biện pháp bảo vệ mô hình và sử dụng các đầu vào đối nghịch để gây ra trục trặc.

Chiến thuật sử dụng sai AI tạo ra tần suất tương đối trong tập dữ liệu của chúng tôi. Bất kỳ trường hợp sử dụng sai nào được báo cáo trên phương tiện truyền thông đều có thể liên quan đến một hoặc nhiều chiến thuật.

Các trường hợp khai thác — liên quan đến các tác nhân độc hại khai thác các công cụ AI tạo ra dễ tiếp cận, cấp độ người tiêu dùng, thường theo cách không yêu cầu kỹ năng kỹ thuật nâng cao — là phổ biến nhất trong tập dữ liệu của chúng tôi. Ví dụ, chúng tôi đã xem xét một trường hợp nổi bật từ tháng 2 năm 2024, trong đó một công ty quốc tế báo cáo đã mất 200 triệu đô la Hồng Kông (khoảng 26 triệu đô la Mỹ) sau khi một nhân viên bị lừa thực hiện chuyển tiền trong một cuộc họp trực tuyến. Trong trường hợp này, mọi “người” khác trong cuộc họp, bao gồm cả giám đốc tài chính của công ty, thực chất là kẻ mạo danh được tạo ra bằng máy tính.

Một số chiến thuật nổi bật nhất mà chúng tôi quan sát được, chẳng hạn như mạo danh, lừa đảo và nhân vật tổng hợp, có từ trước khi phát minh ra AI tạo sinh và từ lâu đã được sử dụng để tác động đến hệ sinh thái thông tin và thao túng người khác. Nhưng việc tiếp cận rộng rãi hơn với các công cụ AI tạo sinh có thể thay đổi chi phí và động cơ đằng sau thao túng thông tin, mang lại cho các chiến thuật lâu đời này sức mạnh và tiềm năng mới, đặc biệt là đối với những người trước đây thiếu sự tinh vi về mặt kỹ thuật để kết hợp các chiến thuật như vậy.

Xác định các chiến lược và sự kết hợp của việc sử dụng sai mục đích

Làm giả bằng chứng và thao túng hình ảnh con người là những chiến thuật phổ biến nhất trong các trường hợp sử dụng sai mục đích trong thế giới thực. Trong khoảng thời gian chúng tôi phân tích, hầu hết các trường hợp sử dụng sai mục đích AI tạo ra đều được triển khai nhằm mục đích tác động đến dư luận, tạo điều kiện cho các vụ lừa đảo hoặc hoạt động gian lận hoặc để tạo ra lợi nhuận.

Bằng cách quan sát cách những kẻ xấu kết hợp các chiến thuật lạm dụng AI tạo sinh của chúng để theo đuổi các mục tiêu khác nhau, chúng tôi đã xác định được các tổ hợp lạm dụng cụ thể và dán nhãn các tổ hợp này là chiến lược.

Sơ đồ về cách các mục tiêu của kẻ xấu (trái) liên kết với các chiến lược lạm dụng của chúng (phải).

Các hình thức mới nổi của việc sử dụng sai AI tạo sinh, không phải là ác ý công khai, vẫn gây ra những lo ngại về mặt đạo đức. Ví dụ, các hình thức tiếp cận chính trị mới đang làm mờ ranh giới giữa tính xác thực và sự lừa dối, chẳng hạn như các viên chức chính phủ đột nhiên nói nhiều ngôn ngữ thân thiện với cử tri không có sự tiết lộ minh bạch rằng họ đang sử dụng AI tạo sinh và các nhà hoạt động sử dụng giọng nói do AI tạo ra của các nạn nhân đã chết để kêu gọi cải cách súng.

Mặc dù nghiên cứu cung cấp những hiểu biết mới về các hình thức lạm dụng mới nổi, nhưng cần lưu ý rằng tập dữ liệu này chỉ là một mẫu giới hạn các báo cáo phương tiện truyền thông. Các báo cáo phương tiện truyền thông có thể ưu tiên các sự cố giật gân, từ đó có thể làm lệch tập dữ liệu theo hướng lạm dụng cụ thể. Việc phát hiện hoặc báo cáo các trường hợp lạm dụng cũng có thể khó khăn hơn đối với những người liên quan vì các hệ thống AI tạo ra rất mới lạ. Tập dữ liệu cũng không so sánh trực tiếp giữa việc lạm dụng các hệ thống AI tạo ra và các chiến thuật tạo và thao túng nội dung truyền thống, chẳng hạn như chỉnh sửa hình ảnh hoặc thiết lập ‘trang trại nội dung’ để tạo ra một lượng lớn văn bản, video, gif, hình ảnh, v.v. Cho đến nay, bằng chứng giai thoại cho thấy các chiến thuật thao túng nội dung truyền thống vẫn phổ biến hơn.

Luôn đi trước những hành vi lạm dụng tiềm ẩn

Của chúng tôi giấy nêu bật các cơ hội để thiết kế các sáng kiến bảo vệ công chúng, chẳng hạn như thúc đẩy các chiến dịch nâng cao nhận thức về AI tạo ra rộng rãi, phát triển các biện pháp can thiệp tốt hơn để bảo vệ công chúng khỏi những kẻ xấu hoặc cảnh báo trước cho mọi người và trang bị cho họ để phát hiện và bác bỏ các chiến lược thao túng được sử dụng trong việc sử dụng sai mục đích AI tạo ra.

Nghiên cứu này giúp các nhóm của chúng tôi bảo vệ sản phẩm của mình tốt hơn bằng cách thông báo cho chúng tôi về việc phát triển các sáng kiến an toàn. Trên YouTube, chúng tôi bây giờ yêu cầu người sáng tạo chia sẻ khi tác phẩm của họ được thay đổi có ý nghĩa hoặc được tạo ra một cách tổng hợp và có vẻ thực tế. Tương tự như vậy, chúng tôi đã cập nhật chính sách quảng cáo bầu cử để yêu cầu các nhà quảng cáo tiết lộ khi quảng cáo bầu cử của họ bao gồm tài liệu đã được thay đổi hoặc tạo ra bằng kỹ thuật số.

Khi chúng tôi tiếp tục mở rộng hiểu biết của mình về việc sử dụng AI tạo ra có mục đích xấu và đạt được những tiến bộ kỹ thuật hơn nữa, chúng tôi biết rằng điều quan trọng hơn bao giờ hết là đảm bảo công việc của chúng tôi không diễn ra trong một silo. Gần đây, chúng tôi đã tham gia Nội dung cho Nguồn gốc và Tính xác thực của Liên minh (C2PA) với tư cách là thành viên của ban chỉ đạo nhằm giúp phát triển tiêu chuẩn kỹ thuật và thúc đẩy việc áp dụng Thông tin xác thực nội dung, đây là siêu dữ liệu chống giả mạo cho thấy nội dung được tạo và chỉnh sửa như thế nào theo thời gian.

Tune music với đó, chúng tôi cũng đang tiến hành nghiên cứu thúc đẩy các nỗ lực nhóm đỏ hiện có, bao gồm cải thiện các phương pháp hay nhất để kiểm tra tính an toàn của các mô hình ngôn ngữ lớn (LLM)và phát triển các công cụ tiên phong để giúp nội dung do AI tạo ra dễ nhận dạng hơn, chẳng hạn như Tổng hợp IDđang được tích hợp vào ngày càng nhiều loại sản phẩm.

Trong những năm gần đây, Jigsaw đã tiến hành nghiên cứu với những người tạo ra thông tin sai lệch để hiểu các công cụ và chiến thuật họ sử dụng, phát triển video prebunking để cảnh báo mọi người về những nỗ lực thao túng họ, và cho thấy các chiến dịch chống phá trước có thể cải thiện khả năng phục hồi thông tin sai lệch ở quy mô lớn. Công trình này là một phần trong danh mục can thiệp thông tin rộng hơn của Jigsaw nhằm giúp mọi người tự bảo vệ mình khi trực tuyến.

Bằng cách chủ động giải quyết các hành vi sử dụng sai tiềm ẩn, chúng ta có thể thúc đẩy việc sử dụng AI tạo sinh có trách nhiệm và đạo đức, đồng thời giảm thiểu rủi ro của nó. Chúng tôi hy vọng những hiểu biết sâu sắc về các chiến thuật và chiến lược sử dụng sai phổ biến nhất này sẽ giúp các nhà nghiên cứu, nhà hoạch định chính sách, nhóm an toàn và tin cậy trong ngành xây dựng các công nghệ an toàn hơn, có trách nhiệm hơn và phát triển các biện pháp tốt hơn để chống lại việc sử dụng sai.

[ad_2]

Source link

Làm thế nào để truy cập mô hình GitHub trong vài bước?

Một thế hệ tài năng mới của Châu Phi mang AI tiên tiến vào các thách thức khoa học

Khoa học dữ liệu so với Khoa học máy tính

Sự khác biệt giữa ANN, CNN và RNN

Quy trình mua hàng để thanh toán & cách tối ưu hóa chu trình P2P

AI và Nguồn nhân lực: Chuyển đổi Tương lai của Quản lý Lực lượng lao động

Giá InVideo, Ưu điểm Nhược điểm, Tính năng, Các lựa chọn thay thế

Đi sâu vào AutoGen và Multi-Agent Frameworks | của Matthew Gunton | Tháng 6, 2024

Most Popular

Sự khác biệt giữa ANN, CNN và RNN

Quy trình mua hàng để thanh toán & cách tối ưu hóa chu trình P2P

AI và Nguồn nhân lực: Chuyển đổi Tương lai của Quản lý Lực lượng lao động

Our Picks

Google cuối cùng cũng hành động để hạn chế deepfake không có sự đồng thuận

Nghiên cứu đồng hành của Cognizant & Oxford Economics với Báo cáo “Công việc mới, Thế giới mới” cho thấy sự lạc quan thận trọng trong các doanh nghiệp áp dụng AI