Xuất bản vào

Triển khai dịch vụ tạo văn bản thực sự khác biệt so với hầu hết các ứng dụng machine learning khác

Tác giả

Triển khai một dịch vụ tạo văn bản thực sự khác biệt so với hầu hết các ứng dụng học máy khác! Độ trễ của một Mô hình Ngôn ngữ Lớn (LLM) khi phản hồi yêu cầu làm việc mà không thể sử dụng các chiến lược thông thường như suy luận thời gian thực hoặc truyền dữ liệu liên tục. Chúng ta có thể mở rộng theo chiều ngang, nhưng chi phí phát sinh từ việc phục vụ một LLM có thể khá cao nếu không cẩn thận.

Chúng ta có thể gom nhóm các yêu cầu lại với nhau để tận dụng sự song song được cung cấp bởi các máy có GPU. Nhưng làm thế nào chúng ta có thể làm điều đó? Chúng ta có chờ đợi đủ yêu cầu để bắt đầu quá trình giải mã được gom nhóm không? Nếu làm như vậy, điều này sẽ gây ra độ trễ cao cho các yêu cầu đầu tiên! Một chiến lược đã được đề xuất là gom nhóm liên tục bằng cách sử dụng tính liên tục của quá trình giải mã.

Để tạo văn bản, một LLM sẽ dự đoán tuần tự từ tiếp theo và nối nó vào các token trước đó đã được giải mã và đề xuất. Quá trình này tiếp tục cho đến khi mô hình dự đoán một token kết thúc câu hoặc nếu chúng ta đạt đến ngưỡng số token tối đa. Chúng ta có thể sử dụng cơ chế này để xây dựng một quá trình gom nhóm linh hoạt hơn. Ở cuối mỗi vòng lặp, chúng ta có thể làm những điều sau:

  • Nếu một trong các chuỗi đạt đến điều kiện kết thúc, chúng ta loại bỏ chuỗi đó khỏi lô hiện tại. Chúng ta có thể trả về toàn bộ chuỗi hoặc token cuối cùng tùy thuộc vào việc chúng ta đã sử dụng một quá trình truyền dữ liệu liên tục hay không.
  • Chúng ta nối các token được dự đoán mới cho mỗi chuỗi vào cuối các chuỗi.
  • Nếu một hoặc nhiều yêu cầu đề xuất đã được xếp hàng, chúng ta bao gồm chúng trong lô hiện tại.
  • Chúng ta lấp đầy lô để có chiều dài chuỗi dài nhất trong lô.

Bằng cách tái gom nhóm dữ liệu một cách linh hoạt trong quá trình giải mã, chúng ta tăng hiệu suất vận hành trong khi duy trì độ trễ thấp. Một vấn đề nảy sinh là chúng ta mất khả năng bảo tồn độ trễ thấp do KV-cache. Khi một yêu cầu mới tham gia lô, KV cache của nó cần được điền vào, và giai đoạn khởi tạo đó làm chậm quá trình giải mã của lô.

Loại chiến lược này là không thể tránh khỏi đối với các dịch vụ tạo văn bản với lượng yêu cầu lớn như ChatGPT, Gemini hoặc Claude, và đây là một cách tuyệt vời để giảm thiểu chi phí phục vụ!

Triển khai dịch vụ tạo văn bản thực sự khác biệt so với hầu hết các ứng dụng machine learning khác

TÁC GIẢ

Về ABN Asia: DIGITIZING ASIA, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software