[ad_1]
Năm 2023 là năm của AI sáng tạo năm đột phá—nơi các tổ chức bắt đầu tìm hiểu cách tích hợp AI vào mọi khía cạnh của hệ thống công nghệ và hoạt động của họ.
Nhưng khi các công ty bắt đầu xem xét kỹ hơn về việc triển khai AI của họ vào nửa cuối năm 2024, câu hỏi quan trọng nhất sẽ không phải là họ có thể làm gì với công nghệ này, mà là tất cả sẽ tốn bao nhiêu? Vì không có một chiến lược chung nào để phát triển AI, nên thường có sự nhầm lẫn xung quanh giá chung.
Bằng cách hiểu loại AI mà bạn đang đào tạo, yêu cầu về độ trễ, số lượng dữ liệu đào tạo và dữ liệu của bên thứ ba mà bạn cần, bạn có thể đảm bảo rằng công ty của mình có thể đổi mới mà không phải tốn kém.
Hiểu loại AI bạn đang đào tạo
Biết được mức độ phức tạp của vấn đề mà bạn muốn giải quyết có tác động rất lớn đến tài nguyên điện toán cần thiết và chi phí, cả trong giai đoạn đào tạo và giai đoạn triển khai. Với phạm vi rộng lớn của các dự án AI từ chatbot đào tạo đến xe tự lái, việc hiểu các mô hình bạn đang làm việc cùng và các tài nguyên cần thiết sẽ rất quan trọng để phù hợp với chi phí với kỳ vọng.
Nhiệm vụ AI đang thiếu hụt về mọi mặt: chúng cần rất nhiều sức mạnh xử lý, dung lượng lưu trữ và phần cứng chuyên dụng. Khi bạn tăng hoặc giảm mức độ phức tạp của nhiệm vụ đang thực hiện, bạn có thể phải trả những hóa đơn khổng lồ để tìm nguồn cung ứng các thành phần như phần cứng được thèm muốn nhất—ví dụ: Nvidia A100 chạy ở khoảng 10.000 đô la một con chipMột ví dụ khác là bạn cần hiểu liệu dự án của mình có yêu cầu một mô hình hoàn toàn mới hay tinh chỉnh các phiên bản nguồn mở hiện có hay không; cả hai đều sẽ có ngân sách khác nhau đáng kể.
Lưu trữ dữ liệu đào tạo
Đào tạo AI đòi hỏi rất nhiều dữ liệu và mặc dù khó ước tính, chúng ta có thể ước tính rằng một mô hình AI lớn sẽ cần tối thiểu hàng chục gigabyte dữ liệu và tối đa là petabyte. Ví dụ, ước tính OpenAI sử dụng bất kỳ dữ liệu nào từ 17GB đến 570GB đến 45TB dữ liệu văn bản (OpenAI coi kích thước cơ sở dữ liệu thực tế là thông tin độc quyền). Kích thước của một tập dữ liệu bạn cần là một lĩnh vực nghiên cứu nóng bỏng hiện nay, cũng như số lượng tham số và siêu tham số. Nguyên tắc chung là bạn cần có nhiều ví dụ hơn 10 lần so với thông số. Cũng như mọi thứ liên quan đến AI, trường hợp sử dụng của bạn ảnh hưởng rất nhiều đến lượng dữ liệu bạn cần, số lượng tham số và siêu tham số bạn đưa vào và cách hai thứ đó tương tác theo thời gian.
Yêu cầu về độ trễ
Khi xem xét tổng chi phí tạo AI, điều cần thiết là phải nhận ra lượng lưu trữ bền vững và tạm thời cần thiết. Trong suốt quá trình đào tạo, tập dữ liệu chính liên tục biến đổi và khi làm như vậy, chia thành nhiều phần. Mỗi tập hợp con này sẽ cần được lưu trữ riêng biệt. Ngay cả khi bạn suy luận trên một mô hình đã được đào tạođây sẽ là mục đích sử dụng chính của mô hình sau khi triển khai, thời gian mô hình hoạt động sẽ bị ảnh hưởng bởi bộ nhớ đệm, xử lý và độ trễ.
Vị trí vật lý của bộ lưu trữ dữ liệu của bạn tạo nên sự khác biệt về tốc độ hoàn thành nhiệm vụ. Tạo bộ lưu trữ tạm thời trên cùng một chip với bộ xử lý hoàn thành nhiệm vụ là một cách để giải quyết vấn đề này. Một cách khác để giải quyết vấn đề này là giữ toàn bộ cụm xử lý và lưu trữ cùng nằm trong một trung tâm dữ liệu và gần với người dùng cuối hơn khi họ làm tại TritonGPT tại UC San Diego.
Đưa vào sự hỗ trợ của bên thứ ba
Sau khi xác định nhu cầu cụ thể của bất kỳ dự án AI nào, một câu hỏi bạn phải tự hỏi mình là liệu bạn có cần thuê ngoài sự trợ giúp hay không. Nhiều doanh nghiệp đã phát triển các mô hình đã tồn tại trước hoặc là những nhà cung cấp có thể mang lại cho bạn kết quả như mong đợi với mức giá chỉ bằng một phần nhỏ so với việc bạn tự mình thực hiện.
Một nơi tốt để bắt đầu là cộng đồng nguồn mở Ôm mặt để xem liệu nhiều mô hình, tập dữ liệu và công cụ không cần mã có thể giúp bạn không. Về phía phần cứng, có các dịch vụ chuyên biệt như Lõi dệt cung cấp khả năng truy cập dễ dàng vào GPU tiên tiến với chi phí thấp hơn nhiều so với các nhà cung cấp cũ hoặc tự xây dựng GPU từ đầu.
Tiết kiệm chi phí AI có thể tăng lên
Việc theo kịp ngành công nghiệp đổi mới AI luôn thay đổi và phát triển không phải là điều khó khăn. Nhưng giống như các chu kỳ cường điệu trước đây xung quanh đám mây và dữ liệu lớn, đầu tư mà không có sự hiểu biết hoặc định hướng rõ ràng có thể dẫn đến chi tiêu quá mức.
Mặc dù rất thú vị khi suy đoán về thời điểm ngành công nghiệp sẽ đạt được trí tuệ nhân tạo tổng quát (AGI) hoặc cách tiếp cận các chip mạnh nhất, nhưng đừng quên rằng chi phí liên quan đến việc triển khai cũng quan trọng không kém trong việc xác định cách ngành công nghiệp sẽ phát triển. Việc xem xét các tùy chọn hiệu quả nhất về chi phí để phát triển các giải pháp AI ngay bây giờ sẽ giúp bạn lập ngân sách cho các nguồn lực tiếp theo hướng đến đổi mới AI trong thời gian dài.
Giới thiệu về tác giả
Chris Opat đã tham gia Ngọn lửa ngược với tư cách là phó chủ tịch cấp cao phụ trách hoạt động đám mây vào năm 2023. Trước khi gia nhập Backblaze, ông từng giữ chức phó chủ tịch cấp cao phụ trách kỹ thuật nền tảng và hoạt động tại StackPath, một nhà cung cấp chuyên biệt về công nghệ biên và phân phối nội dung. Ông mang trong mình niềm đam mê xây dựng các nhóm chuyên gia công nghệ giàu kinh nghiệm, những người luôn nỗ lực hết mình để tạo ra trải nghiệm tốt nhất cho khách hàng của Backblaze. Chris có hơn 25 năm kinh nghiệm trong việc xây dựng nhóm và công nghệ tại các công ty khởi nghiệp và mở rộng quy mô. Ông cũng từng giữ các vai trò lãnh đạo tại CyrusOne, CompuCom, Cloudreach và Bear Stearns/JPMorgan. Chris đã lấy bằng Cử nhân Khoa học về Sản xuất Truyền hình và Phương tiện Kỹ thuật số tại Cao đẳng Ithaca.
Đăng ký nhận tin tức insideAI miễn phí bản tin.
Tham gia cùng chúng tôi trên Twitter: https://twitter.com/InsideBigData1
Tham gia cùng chúng tôi trên LinkedIn: https://www.linkedin.com/company/insidebigdata/
Tham gia cùng chúng tôi trên Fb: https://www.facebook.com/insideBIGDATANOW
[ad_2]
Source link