複数の微調整された LLM のマシン使用率を最適化します。

"複数の微調整された LLM のマシン使用率を最適化するにはどうすればよいでしょうか?例として OpenAI と、モデルを微調整するためのその API を考えてみましょう。 OpenAI の場合、「微調整」とは、独自のデータを使用してモデルを特殊化し、API アクセスのために GPU ハードウェアにデプロイすることを意味します。素朴に、モデルを微調整したい新規顧客ごとに、新しいモデルを新しい GPU クラスターにデプロイする必要があると考えることもできます。しかし、OpenAI がこのように進む可能性は低いです。

GPU ハードウェアは非常に高価であり、新規顧客ごとに GPU クラスターを割り当てる必要があります。 OpenAI の価格モデルはモデルの使用量に基づいています。つまり、顧客はモデルを使用した場合にのみ料金を支払いますが、OpenAI の場合、モデルを提供するコストは決して止まりません。 OpenAI の微調整機能をテストしたいだけの顧客が何千人もいた可能性が非常に高く、結果として得られた微調整モデルは実際には使用されませんでした。 OpenAI は、これらの各モデルのサービスコストを処理するだけでしょうか?

LLM を微調整する 1 つの戦略は、基本モデルに「接続」できるアダプターを使用することです。このアイデアは、基本モデルの重みの更新を回避し、アダプターに微調整タスクに関する情報をキャプチャさせることです。モデルをさまざまなタスクに特化させるさまざまなアダプターを接続したり取り外したりできます。最も一般的で効率的なアダプタータイプは、低ランクアダプター (LoRA) です。このアイデアは、勾配の計算のために、モデル内の大きな行列の一部を小さな行列に置き換えることです。

これらのアダプターはサイズが小さく、追加ロジックが単純であるため、さまざまな微調整タスクのために複数のアダプターを一度に追加するのが簡単です。これらのアダプターは個別にトレーニングし、サービス提供時に一緒に接続できます。入力をそれぞれのタスクにルーティングするロジックが必要なだけです。

これは、一部のタスクのリクエスト量が少ない場合に非常に有益です。 OpenAI の場合、複数の LoRA アダプターを使用すると、複数の微調整されたモデルを同じ GPU クラスターにデプロイすることが簡単になります。微調整プロセス中に LoRA 重みがトレーニングされた後は、それらをモデルレジストリに保存するだけです。完全に微調整されたモデルの代わりにこれらの重みを保存するコストは、はるかに低くなります。サービス提供時には、複数のアダプターを同じ基本モデルに接続し、顧客のリクエストを独自のアダプターにルーティングできます。

OpenAI は、さまざまな微調整されたモデルに対するアダプターの使用率と顧客のリクエスト量を簡単に測定できます。ボリュームが少ない場合は、同じ基本モデル上の他の使用率の低いアダプターと一緒に導入でき、ボリュームが多い場合は、アダプターに独自の基本モデルを割り当てることができるため、ユーザーは、使用率が低いほど長く待つことがなくなります。完了する必要のあるリクエスト"

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。複数の微調整された LLM のマシン使用率を最適化します。

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。私たちの取り組み: より速く。より良い。より信頼性が高くなります。ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書（RFP）をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。