[ad_1]
Công cụ mã thông báo mới có tổng cộng 200.000 mã thông báo và khoảng 25% là ngôn ngữ không phải tiếng AnhDeedy Das, một nhà đầu tư AI tại Menlo Ventures, cho biết. Anh đã sử dụng bộ lọc ngôn ngữ để đếm số lượng token ở các ngôn ngữ khác nhau và ngôn ngữ hàng đầu ngoài tiếng Anh là tiếng Nga, tiếng Ả Rập và tiếng Việt.
Das nói: “Vì vậy, theo ý kiến của tôi, tác động chính của tokenizer là bạn giảm chi phí đối với các ngôn ngữ này chứ không phải chất lượng của các ngôn ngữ này tăng lên đáng kể”. Khi LLM có mã thông báo tốt hơn và dài hơn bằng các ngôn ngữ không phải tiếng Anh, họ có thể phân tích lời nhắc nhanh hơn và tính phí cho người dùng ít hơn cho cùng một câu trả lời. Với công cụ mã thông báo mới, “bạn đang thấy chi phí giảm gần bốn lần,” ông nói.
Das, người cũng nói được tiếng Hindi và tiếng Bengali, đã xem xét các mã thông báo dài nhất trong các ngôn ngữ đó. Các mã thông báo phản ánh các cuộc thảo luận diễn ra bằng các ngôn ngữ đó, vì vậy chúng bao gồm các từ như “Narendra” hoặc “Pakistan”, nhưng các thuật ngữ tiếng Anh phổ biến như “Thủ tướng”, “đại học” và “quốc tế”.” cũng thường xuyên xuất hiện. Họ cũng không thể hiện vấn đề xung quanh token Trung Quốc.
Điều đó có thể phản ánh dữ liệu đào tạo bằng các ngôn ngữ đó, Das nói: “Lý thuyết làm việc của tôi là các trang internet bằng tiếng Hindi và tiếng Bengali còn rất thô sơ. Nó giống như (hầu hết) các bài báo. Vì vậy, tôi mong đợi điều này sẽ xảy ra. Không có nhiều chương trình thư rác và trang internet khiêu dâm cố gắng hoạt động bằng các ngôn ngữ này. Nó chủ yếu sẽ bằng tiếng Anh.”
Dữ liệu bị ô nhiễm và thiếu sự làm sạch
Tuy nhiên, mọi thứ hoàn toàn khác ở Trung Quốc. Theo nhiều nhà nghiên cứu đã xem xét thư viện mã thông báo mới được sử dụng cho GPT-4o, các mã thông báo dài nhất trong tiếng Trung hầu như chỉ là những từ spam được sử dụng trong bối cảnh khiêu dâm, cờ bạc và lừa đảo. Ngay cả những mã thông báo ngắn hơn, như những từ tiếng Trung dài ba ký tự, cũng phản ánh những chủ đề đó ở một mức độ đáng kể.
“Vấn đề rất rõ ràng: kho dữ liệu được sử dụng để huấn luyện (mã thông báo) không sạch. Các token tiếng Anh có vẻ ổn, nhưng token Trung Quốc thì không,” Cai từ Đại học Princeton cho biết. Không hiếm trường hợp một mô hình ngôn ngữ quét thư rác vào dữ liệu huấn luyện của nó, nhưng thông thường sẽ có nỗ lực đáng kể để dọn sạch dữ liệu trước khi sử dụng. “Có thể là họ đã không thực hiện việc xóa dữ liệu thích hợp khi nói đến tiếng Trung Quốc,” ông nói.
Nội dung của các token Trung Quốc này có thể gợi ý rằng chúng đã bị ô nhiễm bởi một hiện tượng cụ thể: các trang internet chiếm đoạt nội dung không liên quan bằng tiếng Trung hoặc các ngôn ngữ khác để tăng cường tin nhắn rác.
Những tin nhắn này thường là quảng cáo của các video khiêu dâm và các trang internet cờ bạc. Họ có thể là doanh nghiệp thực sự hoặc chỉ đơn thuần là lừa đảo. Và ngôn ngữ được chèn vào các trang internet nội dung hoặc đôi khi là các trang internet hợp pháp để chúng có thể được các công cụ tìm kiếm lập chỉ mục, vượt qua các bộ lọc thư rác và được tìm thấy trong các tìm kiếm ngẫu nhiên. Ví dụ: Google đã lập chỉ mục một trang kết quả tìm kiếm trên trang web của Viện Y tế Quốc gia Hoa Kỳ, liệt kê một trang internet khiêu dâm bằng tiếng Trung. Tên trang internet tương tự cũng xuất hiện trong ít nhất năm token Trung Quốc trong GPT-4o.
[ad_2]
Source link