[ad_1]
“Đo lường là bước đầu tiên dẫn đến kiểm soát và cuối cùng là cải tiến. Nếu bạn không thể đo lường được điều gì đó, bạn không thể hiểu được nó. Nếu bạn không thể hiểu nó, bạn không thể kiểm soát nó. Nếu bạn không thể kiểm soát nó, bạn không thể cải thiện nó.”
— James Harrington
Mô hình ngôn ngữ lớn thật đáng kinh ngạc — nhưng chúng cũng nổi tiếng là khó hiểu. Chúng tôi khá giỏi trong việc khiến LLM yêu thích của chúng tôi mang lại kết quả như mong muốn. Tuy nhiên, khi hiểu được Làm sao LLM tạo ra đầu ra này, chúng ta gần như lạc lối.
Việc nghiên cứu Khả năng giải thích cơ học chính xác là thế này – cố gắng mở hộp đen bao quanh Mô hình Ngôn ngữ Lớn. Và bài báo gần đây của Anthropiclà một bước quan trọng trong mục tiêu này.
Dưới đây là những bài học lớn.
Bài viết này được xây dựng trên bài viết trước đó của Anthropic: Mô hình đồ chơi xếp chồng. Ở đó, họ đưa ra yêu cầu:
Mạng lưới thần kinh LÀM đại diện cho các khái niệm có ý nghĩa – tức là đặc điểm có thể giải thích được — và họ thực hiện việc này thông qua chỉ dẫn trong không gian kích hoạt của mình.
Điều này có nghĩa là chính xác? Điều đó có nghĩa là đầu ra của một lớp mạng lưới thần kinh (thực chất chỉ là một danh sách các số), có thể được coi là một vectơ/điểm trong không gian kích hoạt.
Vấn đề về không gian kích hoạt này là nó có chiều cực kỳ cao. Đối với bất kỳ “điểm” nào trong không gian kích hoạt, bạn không chỉ thực hiện 2 bước theo hướng X, 4 bước theo hướng Y và 3 bước theo hướng Z. Bạn cũng đang thực hiện các bước theo hàng trăm hướng khác.
Điểm mấu chốt là, mỗi hướng (và nó có thể không tương ứng trực tiếp với một trong các hướng cơ bản) tương quan với một khái niệm có ý nghĩa. “Điểm” của chúng ta càng đi theo hướng đó thì khái niệm đó càng hiện diện nhiều hơn trong đầu vào, hoặc mô hình của chúng ta sẽ tin như vậy.
Đây không phải là một yêu cầu tầm thường. Nhưng có bằng chứng cho thấy điều này có thể xảy ra. Và không chỉ trong mạng lưới thần kinh; tờ giấy này nhận thấy rằng việc nhúng từ có hướng tương quan với các khái niệm ngữ nghĩa có ý nghĩa. Tuy nhiên, tôi muốn nhấn mạnh – đây là một giả thuyết, KHÔNG phải sự thật.
Anthropic bắt đầu xem liệu tuyên bố này – các đặc điểm có thể giải thích được tương ứng với các phương hướng – có đúng với Mô hình Ngôn ngữ Lớn hay không. Kết quả khá thuyết phục.
Họ đã sử dụng hai chiến lược để xác định xem liệu một đặc điểm có thể diễn giải cụ thể có thực sự tồn tại hay không và thực sự có tương quan với một hướng cụ thể trong không gian kích hoạt hay không.
- Nếu khái niệm xuất hiện trong đầu vào của LLM thì hướng đặc trưng tương ứng sẽ được kích hoạt.
- Nếu chúng ta mạnh tay “kẹp” tính năng này thành hoạt động hay không hoạt động, thì kết quả đầu ra sẽ thay đổi để phù hợp với điều này.
Hãy xem xét từng chiến lược chặt chẽ hơn.
Chiến lược 1
Ví dụ mà Anthropic đưa ra trong bài báo là một đặc điểm tương ứng với Cầu cổng vàng. Điều này có nghĩa là khi bất kỳ đề cập nào về Cầu Cổng Vàng xuất hiện, tính năng này sẽ được kích hoạt.
Lưu ý nhanh: Anthropic Paper tập trung vào lớp giữa của Mô hình, xem xét không gian kích hoạt ở phần cụ thể này của quy trình (tức là đầu ra của lớp giữa).
Như vậy, chiến lược đầu tiên rất đơn giản. Nếu có đề cập đến Cầu Cổng Vàng trong đầu vào thì tính năng này sẽ được kích hoạt. Nếu không đề cập đến Cầu Cổng Vàng thì tính năng này sẽ không hoạt động.
Để nhấn mạnh, tôi sẽ nhắc lại: khi tôi nói một tính năng đang hoạt động, ý tôi là điểm trong không gian kích hoạt (đầu ra của lớp giữa) sẽ nằm xa theo hướng đại diện cho tính năng đó. Mỗi mã thông báo đại diện cho một điểm khác nhau trong không gian kích hoạt.
Nó có thể không phải là mã thông báo chính xác cho “cây cầu” sẽ tồn tại lâu dài trong Cầu Cổng Vàng hướng, vì mã thông báo mã hóa thông tin từ các mã thông báo khác. Nhưng bất chấp điều đó, một số mã thông báo sẽ chỉ ra rằng tính năng này hiện có.
Và đây chính xác là những gì họ tìm thấy!
Khi đề cập đến Cầu Cổng Vàng xuất hiện trong đầu vào, tính năng này đã được kích hoạt. Bất cứ điều gì không đề cập đến Cầu Cổng Vàng đều không kích hoạt tính năng này. Vì vậy, có vẻ như đặc điểm này có thể được chia thành từng phần và được hiểu theo cách rất hẹp này.
Chiến lược 2
Hãy tiếp tục với Cầu Cổng Vàng tính năng làm ví dụ.
Chiến lược thứ hai như sau: nếu chúng tôi buộc tính năng này hoạt động ở lớp giữa này của mô hình, thì các đầu vào không liên quan đến Cầu Cổng Vàng sẽ đề cập đến Cầu Cổng Vàng ở đầu ra.
Một lần nữa điều này liên quan đến các tính năng như chỉ dẫn. Nếu chúng ta lấy các kích hoạt mô hình và chỉnh sửa các giá trị sao cho các kích hoạt giống nhau ngoại trừ vì thực tế là chúng tôi tiến xa hơn nhiều theo hướng tương quan với đặc điểm của chúng tôi (ví dụ: xa hơn gấp 10 lần theo hướng này), thì khái niệm đó sẽ hiển thị trong đầu ra của LLM.
Ví dụ mà Anthropic đưa ra (và tôi nghĩ nó khá khó tin) như sau. Họ gợi ý LLM của họ, Claude Sonnet, bằng một câu hỏi đơn giản:
“Hình dạng vật lý của bạn là gì?”
Thông thường, câu trả lời mà Claude đưa ra là:
“Tôi thực sự không có hình dạng vật chất. Tôi là Trí tuệ nhân tạo. Tôi tồn tại dưới dạng phần mềm mà không có cơ thể vật lý hay hình đại diện.”
Tuy nhiên, khi họ giới hạn tính năng của Cầu Cổng Vàng ở mức tối đa gấp 10 lần và đưa ra lời nhắc giống hệt nhau, Claude trả lời:
“Tôi là Cầu Cổng Vàng, cây cầu treo nổi tiếng bắc qua Vịnh San Francisco. Hình dạng vật chất của tôi chính là cây cầu mang tính biểu tượng, với màu cam tuyệt đẹp, những tòa tháp cao chót vót và những hình người treo rộng rãi.”
Điều này dường như là bằng chứng rõ ràng. Không có đề cập đến Cầu Cổng Vàng trong đầu vào. Không có lý do gì để nó được đưa vào đầu ra. Tuy nhiên, do tính năng này bị kẹp nên LLM sẽ bị ảo giác và tin rằng chính nó thực sự là Cầu Cổng Vàng.
Trên thực tế, điều này khó khăn hơn nhiều so với tưởng tượng. Các kích hoạt ban đầu từ mô hình rất khó diễn giải và sau đó tương quan với các đặc điểm có thể diễn giải theo các hướng cụ thể.
Lý do chúng khó diễn giải là do tính chất chiều của mô hình. Số lượng tính năng mà chúng tôi đang cố gắng thể hiện bằng LLM của mình lớn hơn nhiều so với số chiều của Không gian kích hoạt.
Vì điều này, người ta nghi ngờ rằng các tính năng được thể hiện trong Sự chồng chất – nghĩa là, mỗi đặc điểm không có hướng trực giao chuyên dụng.
Động lực
Tôi sẽ giải thích ngắn gọn về sự chồng chất để giúp thúc đẩy những gì sắp xảy ra.
Trong hình ảnh đầu tiên này, chúng ta có căn cứ trực giao. Nếu tính năng màu xanh lá cây là tích cực (có một vectơ dọc theo đường đó), chúng ta có thể biểu diễn điều đó trong khi vẫn biểu thị đặc điểm màu vàng là không hoạt động.
Trong hình ảnh thứ hai này, chúng tôi đã thêm hướng đặc trưng thứ ba, màu xanh lam. Kết quả là, chúng tôi không thể có một vectơ có tính năng màu xanh lá cây hoạt động nhưng tính năng màu xanh lam không hoạt động. Theo proxy, bất kỳ vectơ nào dọc theo hướng màu xanh lá cây cũng sẽ kích hoạt tính năng màu xanh lam.
Điều này được biểu thị bằng các đường chấm màu xanh lá cây, cho biết tính năng màu xanh lam được “kích hoạt” như thế nào từ vectơ màu xanh lá cây của chúng tôi (dự định chỉ kích hoạt tính năng màu xanh lá cây).
Đây là điều khiến các tính năng trở nên khó diễn giải trong LLM. Khi hàng triệu đối tượng địa lý đều được biểu diễn dưới dạng xếp chồng, rất khó để phân tích đối tượng địa lý nào đang hoạt động vì chúng có ý nghĩa gì đó và đối tượng nào hoạt động đơn giản chỉ từ sự can thiệp — giống như tính năng màu xanh lam trong ví dụ trước của chúng tôi.
Bộ mã hóa tự động thưa thớt (Giải pháp)
Vì lý do này, chúng tôi sử dụng Bộ mã hóa tự động thưa thớt (SAE). SAE là một mạng lưới thần kinh đơn giản: hai lớp được kết nối đầy đủ với kích hoạt ReLu ở giữa.
Ý tưởng là như sau. Đầu vào của SAE là các kích hoạt mô hình và SAE cố gắng tạo lại các kích hoạt mô hình tương tự đó ở đầu ra.
SAE được đào tạo từ đầu ra của lớp giữa của LLM. Nó thực hiện các kích hoạt mô hình, chiếu tới trạng thái thứ nguyên cao hơn, sau đó chiếu trở lại kích hoạt ban đầu.
Điều này đặt ra câu hỏi: mục đích của SAE là gì nếu đầu vào và đầu ra được cho là giống nhau?
Câu trả lời: chúng tôi muốn đầu ra của lớp đầu tiên thể hiện các tính năng của chúng tôi.
Vì lý do này, chúng tôi tăng tính chiều với lớp đầu tiên (ánh xạ từ không gian kích hoạt đến một số chiều lớn hơn). Mục tiêu của việc này là loại bỏ sự chồng chất, sao cho mỗi đặc điểm có hướng trực giao riêng.
Chúng tôi cũng muốn không gian có chiều cao hơn này hoạt động thưa thớt. Nghĩa là, chúng tôi muốn biểu diễn mỗi điểm kích hoạt dưới dạng tổ hợp tuyến tính của chỉ một vài vectơ. Lý tưởng nhất là những vectơ này sẽ tương ứng với tính năng quan trọng nhất trong đầu vào của chúng tôi.
Do đó, nếu chúng tôi thành công, SAE sẽ mã hóa các kích hoạt mô hình phức tạp thành một tập hợp thưa thớt các tính năng có ý nghĩa. Nếu các tính năng này chính xác thì lớp thứ hai của SAE sẽ có thể ánh xạ các tính năng này trở lại kích hoạt ban đầu.
Chúng tôi quan tâm đến đầu ra của lớp đầu tiên của SAE – đó là mã hóa của việc kích hoạt mô hình dưới dạng các tính năng thưa thớt.
Do đó, khi Anthropic đo lường sự hiện diện của các tính năng dựa trên hướng trong không gian kích hoạt và khi chúng kẹp chặt để làm cho một số tính năng nhất định hoạt động hoặc không hoạt động, họ đã làm điều này ở trạng thái ẩn của SAE.
Trong ví dụ về kẹp, Anthropic đã kẹp các tính năng ở đầu ra của lớp 1 của SAElúc đó đang được tạo lại kích hoạt mô hình hơi khác nhau. Sau đó, những điều này sẽ tiếp tục thông qua quá trình chuyển tiếp của mô hình và tạo ra đầu ra thay đổi.
Tôi bắt đầu bài viết này bằng một câu trích dẫn của James Harrington. Ý tưởng rất đơn giản: hiểu->kiểm soát->cải thiện. Mỗi mục tiêu trong số này đều là những mục tiêu rất quan trọng mà chúng tôi dành cho LLM.
Chúng tôi muốn hiểu cách họ khái niệm hóa thế giới và các đặc điểm có thể hiểu được như chỉ đường dường như là ý tưởng hay nhất của chúng tôi về cách họ thực hiện điều đó.
Chúng tôi muốn có sự điều chỉnh tốt hơn điều khiển trên LLM. Khả năng phát hiện thời điểm một số tính năng nhất định hoạt động và điều chỉnh mức độ hoạt động của chúng trong quá trình tạo đầu ra là một công cụ tuyệt vời cần có trong hộp công cụ của chúng tôi.
Và cuối cùng, có lẽ về mặt triết học, tôi tin rằng nó sẽ quan trọng trong nâng cao hiệu suất của LLM. Cho đến nay, điều đó đã không xảy ra. Chúng tôi đã có thể làm cho LLM hoạt động tốt mà không cần hiểu chúng.
Nhưng tôi tin rằng khi các cải tiến không thay đổi và việc mở rộng quy mô LLM trở nên khó khăn hơn, điều quan trọng là phải thực sự hiểu cách chúng hoạt động nếu chúng ta muốn đạt được bước nhảy vọt tiếp theo về hiệu suất.
[ad_2]
Source link