[ad_1]
Công nghệ
Công bố bộ mã hóa tự động thưa thớt toàn diện, mở để diễn giải mô hình ngôn ngữ.
Để tạo ra một mô hình ngôn ngữ trí tuệ nhân tạo (AI), các nhà nghiên cứu xây dựng một hệ thống học từ lượng dữ liệu khổng lồ mà không cần sự hướng dẫn của con người. Do đó, hoạt động bên trong của các mô hình ngôn ngữ thường là một bí ẩn, ngay cả với các nhà nghiên cứu đào tạo chúng. Khả năng diễn giải cơ học là một lĩnh vực nghiên cứu tập trung vào việc giải mã những hoạt động bên trong này. Các nhà nghiên cứu trong lĩnh vực này sử dụng bộ mã hóa tự động thưa thớt như một loại ‘kính hiển vi’ cho phép họ nhìn vào bên trong mô hình ngôn ngữ và hiểu rõ hơn về cách thức hoạt động của nó.
Hôm nay, chúng tôi đang công bố Gemma Scopemột bộ công cụ mới giúp các nhà nghiên cứu hiểu được hoạt động bên trong của Gemma 2, nhóm mô hình mở nhẹ của chúng tôi. Gemma Scope là bộ sưu tập hàng trăm bộ mã hóa tự động thưa thớt mở (SAE) có sẵn miễn phí cho Gemma 2 9B Và Gemma 2 2B. Chúng tôi cũng đang mở nguồn Sai lầmmột công cụ chúng tôi xây dựng giúp thực hiện nhiều công việc diễn giải đằng sau Gemma Scope.
Chúng tôi hy vọng bản phát hành hôm nay sẽ cho phép nghiên cứu khả năng diễn giải tham vọng hơn. Nghiên cứu sâu hơn có khả năng giúp lĩnh vực này xây dựng các hệ thống mạnh mẽ hơn, phát triển các biện pháp bảo vệ tốt hơn chống lại ảo giác mô hình và bảo vệ chống lại các rủi ro từ các tác nhân AI tự động như lừa dối hoặc thao túng.
Hãy thử bản demo Gemma Scope tương tác của chúng tôiđược cung cấp bởi Neuronpedia.
Diễn giải những gì xảy ra bên trong một mô hình ngôn ngữ
Khi bạn hỏi một mô hình ngôn ngữ một câu hỏi, nó sẽ biến văn bản đầu vào của bạn thành một loạt các ‘kích hoạt’. Các kích hoạt này lập bản đồ mối quan hệ giữa các từ bạn đã nhập, giúp mô hình tạo kết nối giữa các từ khác nhau, từ đó mô hình sử dụng để viết câu trả lời.
Khi mô hình xử lý dữ liệu văn bản đầu vào, các kích hoạt ở các lớp khác nhau trong mạng nơ-ron của mô hình sẽ biểu diễn nhiều khái niệm ngày càng nâng cao, được gọi là ‘tính năng’.
Ví dụ, các lớp đầu tiên của mô hình có thể học cách nhớ lại sự kiện như thế đó Michael Jordan chơi bóng rổtrong khi các lớp sau có thể nhận dạng các khái niệm phức tạp hơn như tính thực tế của văn bản.
Tuy nhiên, các nhà nghiên cứu về khả năng diễn giải phải đối mặt với một vấn đề chính: các hoạt động của mô hình là sự kết hợp của nhiều tính năng khác nhau. Trong những ngày đầu của khả năng diễn giải cơ học, các nhà nghiên cứu hy vọng rằng các tính năng trong các hoạt động của mạng nơ-ron sẽ phù hợp với từng nơ-ron riêng lẻ, I E, các nút thông tin. Nhưng thật không might, trong thực tế, các tế bào thần kinh hoạt động cho nhiều tính năng không liên quan. Điều này có nghĩa là không có cách rõ ràng nào để biết tính năng nào là một phần của sự kích hoạt.
Đây chính là lúc bộ mã hóa tự động thưa thớt phát huy tác dụng.
Một kích hoạt nhất định sẽ chỉ là sự kết hợp của một số ít các tính năng, mặc dù mô hình ngôn ngữ có khả năng phát hiện hàng triệu hoặc thậm chí hàng tỷ tính năng trong số đó – I Emô hình sử dụng các tính năng thưa thớtVí dụ, một mô hình ngôn ngữ sẽ xem xét tính tương đối khi trả lời câu hỏi về Einstein và xem xét trứng khi viết về món trứng ốp la, nhưng có thể sẽ không xem xét tính tương đối khi viết về món trứng ốp la.
Bộ mã hóa tự động thưa thớt tận dụng thực tế này để khám phá một tập hợp các tính năng khả thi và chia nhỏ từng kích hoạt thành một số lượng nhỏ các tính năng đó. Các nhà nghiên cứu hy vọng rằng cách tốt nhất để bộ mã hóa tự động thưa thớt hoàn thành nhiệm vụ này là tìm ra các tính năng cơ bản thực tế mà mô hình ngôn ngữ sử dụng.
Điều quan trọng là, không có thời điểm nào trong quá trình này, chúng tôi – các nhà nghiên cứu – nói với bộ mã hóa tự động thưa thớt những đặc điểm nào cần tìm. Kết quả là, chúng tôi có thể khám phá ra những cấu trúc phong phú mà chúng tôi không dự đoán được. Tuy nhiên, vì chúng tôi không biết ngay lập tức nghĩa trong số các tính năng được phát hiện, chúng tôi tìm kiếm mẫu có ý nghĩa trong các ví dụ về văn bản mà bộ mã hóa tự động thưa thớt cho biết tính năng này ‘kích hoạt’.
Sau đây là ví dụ trong đó các mã thông báo có tính năng kích hoạt được tô sáng bằng các sắc thái màu xanh lam theo độ mạnh của chúng:
Điều gì làm cho Gemma Scope trở nên độc đáo
Nghiên cứu trước đây với bộ mã hóa tự động thưa thớt chủ yếu tập trung vào việc điều tra hoạt động bên trong của mô hình nhỏ hoặc một lớp duy nhất trong các mô hình lớn hơn. Nhưng nghiên cứu khả năng diễn giải tham vọng hơn liên quan đến việc giải mã các thuật toán phức tạp, nhiều lớp trong các mô hình lớn hơn.
Chúng tôi đã đào tạo các bộ mã hóa tự động thưa thớt tại mọi đầu ra lớp và lớp con của Gemma 2 2B Và 9B để xây dựng Gemma Scope, tạo ra hơn 400 bộ mã hóa tự động thưa thớt với tổng cộng hơn 30 triệu tính năng đã học (mặc dù nhiều tính năng có thể chồng chéo). Công cụ này sẽ cho phép các nhà nghiên cứu nghiên cứu cách các tính năng phát triển trong toàn bộ mô hình và tương tác và hợp thành để tạo ra các tính năng phức tạp hơn.
Gemma Scope cũng được đào tạo với công nghệ mới, hiện đại của chúng tôi Kiến trúc JumpReLU SAEKiến trúc mã hóa tự động thưa thớt ban đầu đã phải vật lộn để cân bằng hai mục tiêu track track là phát hiện các tính năng nào hiện diện và ước tính sức mạnh của chúng. Kiến trúc JumpReLU giúp dễ dàng đạt được sự cân bằng này một cách phù hợp, giảm đáng kể lỗi.
Việc đào tạo nhiều bộ mã hóa tự động thưa thớt như vậy là một thách thức kỹ thuật đáng kể, đòi hỏi rất nhiều sức mạnh tính toán. Chúng tôi đã sử dụng khoảng 15% khả năng tính toán đào tạo của Gemma 2 9B (không bao gồm khả năng tính toán để tạo nhãn chưng cất), lưu khoảng 20 Pebibyte (PiB) kích hoạt vào đĩa (khoảng một triệu bản sao của Wikipedia tiếng Anh), và tạo ra tổng cộng hàng trăm tỷ tham số bộ mã hóa tự động thưa thớt.
Đẩy mạnh lĩnh vực này về phía trước
Khi phát hành Gemma Scope, chúng tôi hy vọng biến Gemma 2 thành họ mô hình tốt nhất cho nghiên cứu khả năng diễn giải cơ học mở và đẩy nhanh công việc của cộng đồng trong lĩnh vực này.
Cho đến nay, cộng đồng khả năng diễn giải đã đạt được tiến bộ lớn trong việc hiểu các mô hình nhỏ với bộ mã hóa tự động thưa thớt và phát triển các kỹ thuật có liên quan, như nguyên nhân sự can thiệp, tự động mạch điện Phân tích, giải thích tính năngVà đánh giá bộ mã hóa tự động thưa thớtVới Gemma Scope, chúng tôi hy vọng thấy cộng đồng áp dụng các kỹ thuật này vào các mô hình hiện đại, phân tích các khả năng phức tạp hơn như chuỗi suy nghĩ và tìm ra các ứng dụng thực tế của khả năng diễn giải như giải quyết các vấn đề như ảo giác và vượt ngục chỉ phát sinh ở các mô hình lớn hơn.
[ad_2]
Source link