[ad_1]
Trên thực tế, trong số ít mã thông báo dài của Trung Quốc trong GPT-4o không phải là nội dung khiêu dâm hoặc cờ bạc vô nghĩa, có hai mã thông báo là “chủ nghĩa xã hội đặc sắc Trung Quốc” và “Cộng hòa Nhân dân Trung Hoa”. Sự hiện diện của những cụm từ này cho thấy rằng một phần quan trọng của dữ liệu đào tạo thực sự là từ các bài viết trên truyền thông nhà nước Trung Quốc, nơi những cách diễn đạt dài dòng, trang trọng là cực kỳ phổ biến.
OpenAI trước đây rất kín tiếng về dữ liệu mà nó sử dụng để đào tạo các mô hình của mình và có lẽ nó sẽ không bao giờ cho chúng ta biết có bao nhiêu cơ sở dữ liệu đào tạo ở Trung Quốc là truyền thông nhà nước và bao nhiêu là thư rác. (OpenAI đã không trả lời Đánh giá công nghệ MITcâu hỏi chi tiết được gửi vào thứ Sáu.)
Nhưng đây không phải là công ty duy nhất gặp khó khăn với vấn đề này. Những người ở Trung Quốc làm việc trong ngành AI đều đồng ý rằng đang thiếu bộ dữ liệu văn bản tiếng Trung chất lượng để đào tạo LLM. Một lý do là Web Trung Quốc đã từng và phần lớn vẫn được chia sẻ bởi các công ty lớn như Tencent và ByteDance.. Họ sở hữu hầu hết các nền tảng xã hội và sẽ không chia sẻ dữ liệu của mình với các đối thủ cạnh tranh hoặc bên thứ ba để đào tạo LLM.
Trên thực tế, đây cũng là lý do tại sao các công cụ tìm kiếm, bao gồm cả Google, khá tệ khi tìm kiếm bằng tiếng Trung. Vì nội dung WeChat chỉ có thể được tìm kiếm trên WeChat và nội dung trên Douyin (TikTok của Trung Quốc) chỉ có thể được tìm kiếm trên Douyin, nên công cụ tìm kiếm của bên thứ ba không thể truy cập được dữ liệu này, chứ chưa nói đến LLM. Nhưng đây là những nền tảng nơi diễn ra các cuộc trò chuyện thực tế giữa con người với nhau, thay vì một số trang net spam luôn cố gắng lôi kéo bạn vào cờ bạc trực tuyến.
Việc thiếu dữ liệu đào tạo chất lượng là một vấn đề lớn hơn nhiều so với việc không lọc được nội dung khiêu dâm và những điều vô nghĩa nói chung trong dữ liệu đào tạo mã thông báo của GPT-4o. Nếu không có tập dữ liệu hiện có, các công ty AI phải thực hiện công việc quan trọng để xác định, tìm nguồn và quản lý các tập dữ liệu của riêng họ cũng như lọc ra nội dung không phù hợp hoặc sai lệch.
Có vẻ như OpenAI đã không làm điều đó, điều này công bằng mà nói thì có phần hợp lý, vì dù sao thì người dân ở Trung Quốc cũng không thể sử dụng các mô hình AI của họ.
Tuy nhiên, vẫn có nhiều người sống bên ngoài Trung Quốc muốn sử dụng dịch vụ AI bằng tiếng Trung Quốc. Và họ xứng đáng có được một sản phẩm hoạt động tốt như những người nói bất kỳ ngôn ngữ nào khác.
Làm thế nào chúng ta có thể giải quyết vấn đề thiếu dữ liệu đào tạo LLM tốt của Trung Quốc? Hãy cho tôi biết ý tưởng của bạn tại [email protected].
[ad_2]
Source link