テキスト生成サービスのデプロイは、他のほとんどの機械学習アプリケーションとはまったく異なります

"テキスト生成サービスのデプロイは、他のほとんどの機械学習アプリケーションとはまったく異なります。 LLM がプロンプトに応答するまでの待ち時間が長いため、リアルタイム推論やストリーミング推論などの一般的な戦略を使用することができません。水平方向に拡張することもできますが、注意しないと LLM の提供に関連するコストが非常に高くなる可能性があります。

プロンプトをまとめてバッチ処理して、GPU マシンによって提供される並列処理を利用できます。しかし、どうやってそれを行うのでしょうか?バッチ化されたデコードプロセスを開始するのに十分なリクエストがあるまで待つ必要がありますか?それを行うと、最初のリクエストで長いレイテンシが発生することになります。提案されている戦略の 1 つは、復号化プロセスの反復的な性質を使用した連続バッチ処理です。

テキストを生成するために、LLM は次の単語を繰り返し予測し、それをすでにデコードされている前のトークンとプロンプトに追加します。このプロセスは、モデルが文末 [EOS] トークンを予測するか、トークンの最大数のしきい値に達するまで続きます。このメカニズムを使用して、より動的なバッチ処理プロセスを構築できます。各反復の最後に、次のことを実行できます。

シーケンスの 1 つが終了条件に達した場合、そのシーケンスは現在のバッチから削除されます。ストリーミングプロセスを使用したかどうかに応じて、シーケンス全体または最後のトークンを返すことができます。
各シーケンスの新しく予測されたトークンをシーケンスの最後に追加します。
1 つ以上のプロンプトリクエストがキューに入れられている場合、それらは現在のバッチに含まれます。
バッチ内の最長のシーケンスまでバッチをパディングします。

デコードプロセス中にデータを動的に再バッチ処理することで、低遅延を維持しながらスループットを向上させます。浮上する 1 つの問題は、KV キャッシュによって提供される低レイテンシを維持する能力が失われることです。新しいリクエストがバッチに参加すると、その KV キャッシュにデータを追加する必要があり、それらの初期化フェーズによりバッチのデコードプロセスが遅くなります。

この種の戦略は、ChatGPT、Gemini、Claude などのリクエスト負荷が高いテキスト生成サービスでは避けられず、サービスコストを最小限に抑える優れた方法です。"

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。テキスト生成サービスのデプロイは、他のほとんどの機械学習アプリケーションとはまったく異なります

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。私たちの取り組み: より速く。より良い。より信頼性が高くなります。ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書（RFP）をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。