Tối ưu hóa việc sử dụng máy cho nhiều LLM được tinh chỉnh

"Làm cách nào chúng ta có thể tối ưu hóa việc sử dụng máy cho nhiều LLM được tinh chỉnh? Hãy coi OpenAI làm ví dụ và API của nó để tinh chỉnh các mô hình.

Trong trường hợp OpenAI, tinh chỉnh có nghĩa là mô hình được chuyên biệt hóa bằng cách sử dụng một số dữ liệu độc quyền và sau đó được triển khai trên phần cứng GPU để truy cập API. Một cách tối giản, chúng ta có thể nghĩ rằng đối với mỗi khách hàng mới muốn tinh chỉnh mô hình của họ, chúng ta sẽ cần triển khai một mô hình mới trên cụm GPU mới. Tuy nhiên, khó có khả năng OpenAI tiến hành theo cách này!

Phần cứng GPU thực sự đắt tiền và họ sẽ cần phân bổ cụm GPU cho mỗi khách hàng mới. Mô hình định giá OpenAI dựa trên việc sử dụng mô hình, nghĩa là khách hàng chỉ trả tiền khi họ sử dụng mô hình, nhưng đối với OpenAI, chi phí phục vụ mô hình không bao giờ dừng lại! Rất có thể đã có hàng nghìn khách hàng chỉ muốn thử nghiệm khả năng tinh chỉnh của OpenAI và các mô hình tinh chỉnh thu được chưa bao giờ thực sự được sử dụng. Liệu OpenAI có xử lý được chi phí phân phối cho từng mô hình đó không?

Một chiến lược để tinh chỉnh LLM là sử dụng các bộ điều hợp có thể cắm vào mô hình cơ sở. Ý tưởng là tránh cập nhật trọng số của mô hình cơ sở và yêu cầu bộ điều hợp nắm bắt thông tin về các tác vụ tinh chỉnh. chúng ta có thể cắm và rút các bộ điều hợp khác nhau để chuyên biệt hóa mô hình cho các nhiệm vụ khác nhau. Loại bộ chuyển đổi phổ biến và hiệu quả nhất là Bộ chuyển đổi cấp thấp (LoRA). Ý tưởng là thay thế một số ma trận lớn trong mô hình bằng các ma trận nhỏ hơn để tính toán độ dốc.

Do kích thước nhỏ của các bộ điều hợp đó và logic bổ sung đơn giản của chúng nên có thể dễ dàng thêm nhiều bộ điều hợp cùng lúc cho các tác vụ tinh chỉnh khác nhau. Những bộ điều hợp đó có thể được huấn luyện riêng biệt và cắm lại với nhau tại thời điểm cung cấp. Chúng ta chỉ cần một logic để định tuyến các đầu vào đến nhiệm vụ tương ứng của chúng.

Điều này cực kỳ có lợi khi chúng ta có lượng yêu cầu thấp đối với một số nhiệm vụ. Trong trường hợp OpenAI, với nhiều bộ điều hợp LoRA, họ có thể dễ dàng triển khai nhiều mô hình tinh chỉnh trên cùng một cụm GPU. Sau khi các trọng số LoRA đã được huấn luyện trong quá trình tinh chỉnh, chúng ta chỉ lưu trữ chúng trong sổ đăng ký mô hình. Chi phí lưu trữ những trọng lượng đó thay vì một mô hình tinh chỉnh đầy đủ sẽ thấp hơn nhiều! Tại thời điểm cung cấp, chúng ta có thể cắm nhiều bộ chuyển đổi vào cùng một mô hình cơ sở và định tuyến yêu cầu của khách hàng đến bộ chuyển đổi riêng.

OpenAI có thể dễ dàng đo lường mức sử dụng bộ điều hợp và khối lượng yêu cầu của khách hàng đối với các mô hình được tinh chỉnh khác nhau. Nếu âm lượng thấp, nó có thể được triển khai cùng với các bộ điều hợp có mức sử dụng thấp khác trên cùng một mô hình cơ sở và nếu âm lượng cao, bộ điều hợp có thể được phân bổ mô hình cơ sở của riêng nó để người dùng không phải đợi quá lâu. yêu cầu phải hoàn thành"

Tối ưu hóa việc sử dụng máy cho nhiều LLM được tinh chỉnh

TÁC GIẢ

Về ABN Asia: Ai Base Network (ABN), ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. chúng ta chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng ta là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.