[ad_1]
Với bộ điều hợp LoRA, chúng ta có thể chuyên biệt hóa một mô hình ngôn ngữ lớn (LLM) cho một tác vụ hoặc một miền. Bộ điều hợp phải được tải lên trên LLM để sử dụng cho suy luận. Đối với một số ứng dụng, có thể hữu ích khi phục vụ người dùng bằng nhiều bộ điều hợp. Ví dụ, một bộ điều hợp có thể thực hiện lệnh gọi hàm và bộ điều hợp khác có thể thực hiện một tác vụ rất khác, chẳng hạn như phân loại, biên dịch hoặc các tác vụ tạo ngôn ngữ khác.
Tuy nhiên, để sử dụng nhiều bộ điều hợp, một khuôn khổ suy luận chuẩn sẽ phải dỡ bộ điều hợp hiện tại trước rồi mới tải bộ điều hợp mới. Trình tự dỡ/tải này có thể mất vài giây, làm giảm trải nghiệm của người dùng.
Might mắn thay, có những khuôn khổ mã nguồn mở có thể phục vụ nhiều bộ điều hợp cùng một lúc mà không có bất kỳ khoảng thời gian đáng chú ý nào giữa việc sử dụng hai bộ điều hợp khác nhau. Ví dụ, vLLM (giấy phép Apache 2.0), một trong những khuôn khổ suy luận nguồn mở hiệu quả nhất, có thể dễ dàng chạy và phục vụ nhiều bộ điều hợp LoRA cùng lúc.
Trong bài viết này, chúng ta sẽ xem cách sử dụng vLLM với nhiều bộ điều hợp LoRA. Tôi giải thích cách sử dụng bộ điều hợp LoRA với suy luận ngoại tuyến và cách phục vụ nhiều bộ điều hợp cho người dùng để suy luận trực tuyến. Tôi sử dụng Llama 3 cho các ví dụ với bộ điều hợp để gọi hàm và trò chuyện.
[ad_2]
Source link