Optimieren Sie die Maschinenauslastung für mehrere fein abgestimmte LLMs

"Wie können wir die Maschinenauslastung für mehrere fein abgestimmte LLMs optimieren? Betrachten wir OpenAI als Beispiel und seine API zur Feinabstimmung von Modellen. Im Fall von OpenAI bedeutet „Feinabstimmung, dass das Modell unter Verwendung einiger proprietärer Daten spezialisiert wird und dann auf GPU-Hardware für den API-Zugriff bereitgestellt wird. Naiverweise könnten wir denken, dass wir für jeden neuen Kunden, der sein Modell verfeinern möchte, ein neues Modell auf einem neuen GPU-Cluster bereitstellen müssen. Allerdings ist es unwahrscheinlich, dass OpenAI so vorgeht!

GPU-Hardware ist sehr teuer und sie müssten jedem neuen Kunden einen GPU-Cluster zuweisen. Das OpenAI-Preismodell basiert auf der Modellnutzung, was bedeutet, dass Kunden nur zahlen, wenn sie das Modell nutzen, aber für OpenAI fallen die Kosten für die Bereitstellung des Modells nie an! Es ist sehr wahrscheinlich, dass es Tausende von Kunden gab, die lediglich die Feinabstimmungsfunktionen von OpenAI testen wollten, und die daraus resultierenden feinabgestimmten Modelle nie tatsächlich verwendet wurden. Würde OpenAI nur die Bereitstellungskosten für jedes dieser Modelle übernehmen?

Eine Strategie zur Feinabstimmung von LLMs besteht darin, Adapter zu verwenden, die in das Basismodell „eingesteckt werden können. Die Idee besteht darin, eine Aktualisierung der Gewichte des Basismodells zu vermeiden und die Adapter die Informationen über die Feinabstimmungsaufgaben erfassen zu lassen. Wir können verschiedene Adapter ein- und ausstecken, die das Modell auf unterschiedliche Aufgaben spezialisieren. Der gebräuchlichste und effizienteste Adaptertyp ist der Low-Rank-Adapter (LoRA). Die Idee besteht darin, einige der großen Matrizen innerhalb des Modells durch kleinere für die Gradientenberechnung zu ersetzen.

Aufgrund der geringen Größe dieser Adapter und ihrer einfachen additiven Logik ist es einfach, mehrere Adapter gleichzeitig für verschiedene Feinabstimmungsaufgaben hinzuzufügen. Diese Adapter können separat trainiert und beim Servieren zusammengesteckt werden. Wir brauchen lediglich eine Logik, um die Eingaben an ihre jeweilige Aufgabe weiterzuleiten.

Dies ist äußerst vorteilhaft, wenn wir für einige Aufgaben ein geringes Anfragevolumen haben. Im Fall von OpenAI wird es mit mehreren LoRA-Adaptern einfacher, mehrere fein abgestimmte Modelle auf demselben GPU-Cluster bereitzustellen. Nachdem die LoRA-Gewichte im Rahmen eines Feinabstimmungsprozesses trainiert wurden, speichern wir diese einfach in einem Modellregister. Die Kosten für die Lagerung dieser Gewichte im Vergleich zu einem vollständig fein abgestimmten Modell werden viel geringer sein! Zum Zeitpunkt der Bereitstellung können wir mehrere Adapter an dasselbe Basismodell anschließen und die Anfrage des Kunden an seinen eigenen Adapter weiterleiten.

OpenAI kann die Adapterauslastung und das Anfragevolumen der Kunden für die verschiedenen fein abgestimmten Modelle problemlos messen. Wenn das Volumen niedrig ist, kann es zusammen mit anderen Adaptern mit geringer Auslastung auf demselben Basismodell bereitgestellt werden, und wenn es hoch ist, kann dem Adapter ein eigenes Basismodell zugewiesen werden, sodass die Benutzer nicht zu lange auf ihr warten müssen Anträge, die erledigt werden müssen"

Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können. Optimieren Sie die Maschinenauslastung für mehrere fein abgestimmte LLMs

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.