Sai lầm mới nhất của OpenAI cho thấy những thách thức mà các mô hình AI Trung Quốc phải đối mặt

[ad_1]

Trên thực tế, trong số ít mã thông báo dài của Trung Quốc trong GPT-4o không phải là nội dung khiêu dâm hoặc cờ bạc vô nghĩa, có hai mã thông báo là “chủ nghĩa xã hội đặc sắc Trung Quốc” và “Cộng hòa Nhân dân Trung Hoa”. Sự hiện diện của những cụm từ này cho thấy rằng một phần quan trọng của dữ liệu đào tạo thực sự là từ các bài viết trên truyền thông nhà nước Trung Quốc, nơi những cách diễn đạt dài dòng, trang trọng là cực kỳ phổ biến.

OpenAI trước đây rất kín tiếng về dữ liệu mà nó sử dụng để đào tạo các mô hình của mình và có lẽ nó sẽ không bao giờ cho chúng ta biết có bao nhiêu cơ sở dữ liệu đào tạo ở Trung Quốc là truyền thông nhà nước và bao nhiêu là thư rác. (OpenAI đã không trả lời Đánh giá công nghệ MITcâu hỏi chi tiết được gửi vào thứ Sáu.)

Nhưng đây không phải là công ty duy nhất gặp khó khăn với vấn đề này. Những người ở Trung Quốc làm việc trong ngành AI đều đồng ý rằng đang thiếu bộ dữ liệu văn bản tiếng Trung chất lượng để đào tạo LLM. Một lý do là Web Trung Quốc đã từng và phần lớn vẫn được chia sẻ bởi các công ty lớn như Tencent và ByteDance.. Họ sở hữu hầu hết các nền tảng xã hội và sẽ không chia sẻ dữ liệu của mình với các đối thủ cạnh tranh hoặc bên thứ ba để đào tạo LLM.

Trên thực tế, đây cũng là lý do tại sao các công cụ tìm kiếm, bao gồm cả Google, khá tệ khi tìm kiếm bằng tiếng Trung. Vì nội dung WeChat chỉ có thể được tìm kiếm trên WeChat và nội dung trên Douyin (TikTok của Trung Quốc) chỉ có thể được tìm kiếm trên Douyin, nên công cụ tìm kiếm của bên thứ ba không thể truy cập được dữ liệu này, chứ chưa nói đến LLM. Nhưng đây là những nền tảng nơi diễn ra các cuộc trò chuyện thực tế giữa con người với nhau, thay vì một số trang net spam luôn cố gắng lôi kéo bạn vào cờ bạc trực tuyến.

Việc thiếu dữ liệu đào tạo chất lượng là một vấn đề lớn hơn nhiều so với việc không lọc được nội dung khiêu dâm và những điều vô nghĩa nói chung trong dữ liệu đào tạo mã thông báo của GPT-4o. Nếu không có tập dữ liệu hiện có, các công ty AI phải thực hiện công việc quan trọng để xác định, tìm nguồn và quản lý các tập dữ liệu của riêng họ cũng như lọc ra nội dung không phù hợp hoặc sai lệch.

Có vẻ như OpenAI đã không làm điều đó, điều này công bằng mà nói thì có phần hợp lý, vì dù sao thì người dân ở Trung Quốc cũng không thể sử dụng các mô hình AI của họ.

Tuy nhiên, vẫn có nhiều người sống bên ngoài Trung Quốc muốn sử dụng dịch vụ AI bằng tiếng Trung Quốc. Và họ xứng đáng có được một sản phẩm hoạt động tốt như những người nói bất kỳ ngôn ngữ nào khác.

Làm thế nào chúng ta có thể giải quyết vấn đề thiếu dữ liệu đào tạo LLM tốt của Trung Quốc? Hãy cho tôi biết ý tưởng của bạn tại [email protected].

[ad_2]

Source link

Google cuối cùng cũng hành động để hạn chế deepfake không có sự đồng thuận

Hệ thống AI mới của Google DeepMind hiện có thể giải quyết các bài toán phức tạp

Một công cụ mới dành cho chủ sở hữu bản quyền có thể hiển thị liệu tác phẩm của họ có nằm trong dữ liệu đào tạo AI hay không

Sự khác biệt giữa ANN, CNN và RNN

Quy trình mua hàng để thanh toán & cách tối ưu hóa chu trình P2P

AI và Nguồn nhân lực: Chuyển đổi Tương lai của Quản lý Lực lượng lao động

Giá InVideo, Ưu điểm Nhược điểm, Tính năng, Các lựa chọn thay thế

Đi sâu vào AutoGen và Multi-Agent Frameworks | của Matthew Gunton | Tháng 6, 2024

Most Popular

Sự khác biệt giữa ANN, CNN và RNN

Quy trình mua hàng để thanh toán & cách tối ưu hóa chu trình P2P

AI và Nguồn nhân lực: Chuyển đổi Tương lai của Quản lý Lực lượng lao động

Our Picks

Google cuối cùng cũng hành động để hạn chế deepfake không có sự đồng thuận

Nghiên cứu đồng hành của Cognizant & Oxford Economics với Báo cáo “Công việc mới, Thế giới mới” cho thấy sự lạc quan thận trọng trong các doanh nghiệp áp dụng AI

Làm thế nào để truy cập mô hình GitHub trong vài bước?

Sai lầm mới nhất của OpenAI cho thấy những thách thức mà các mô hình AI Trung Quốc phải đối mặt

Related Posts