Die Bereitstellung eines Textgenerierungsdienstes unterscheidet sich erheblich von den meisten anderen Anwendungen für maschinelles Lernen

"Die Bereitstellung eines Textgenerierungsdienstes unterscheidet sich wirklich von den meisten anderen Anwendungen für maschinelles Lernen! Die Latenz eines LLM für die Reaktion auf die Eingabeaufforderung ist so groß, dass es nicht möglich ist, typische Strategien wie Echtzeit- oder Streaming-Inferenz zu verwenden. Wir könnten horizontal skalieren, aber die mit der Bereitstellung eines LLM verbundenen Kosten können ziemlich hoch sein, wenn wir nicht vorsichtig sind.

Wir könnten die Eingabeaufforderungen bündeln, um die von GPU-Maschinen bereitgestellte Parallelität zu nutzen. Aber wie machen wir das? Warten wir, bis genügend Anfragen vorliegen, um einen Batch-Dekodierungsprozess zu starten? Wenn wir das tun, wird es bei den ersten Anfragen zu einer hohen Latenz kommen! Eine vorgeschlagene Strategie ist die kontinuierliche Stapelverarbeitung unter Ausnutzung der iterativen Natur des Decodierungsprozesses.

Um Text zu generieren, sagt ein LLM iterativ das nächste Wort voraus und hängt es an die vorherigen, bereits dekodierten Token und die Eingabeaufforderung an. Dieser Prozess wird fortgesetzt, bis das Modell einen Satzende-Token [EOS] vorhersagt oder bis wir den Schwellenwert für die maximale Anzahl von Token erreichen. Mit diesem Mechanismus können wir einen dynamischeren Batch-Prozess aufbauen. Am Ende jeder Iteration können wir Folgendes tun:

Wenn eine der Sequenzen eine Endbedingung erreicht, entfernen wir die Sequenz aus dem aktuellen Stapel. Wir können die gesamte Sequenz oder das letzte Token zurückgeben, je nachdem, ob wir einen Streaming-Prozess verwendet haben oder nicht.
Wir hängen die neu vorhergesagten Token für jede der Sequenzen am Ende der Sequenzen an.
Wenn eine oder mehrere Prompt-Anfragen in der Warteschlange stehen, nehmen wir sie in den aktuellen Stapel auf.
Wir füllen den Stapel bis zur längsten Sequenz im Stapel auf.

Indem wir die Daten während des Decodierungsprozesses dynamisch erneut stapeln, erhöhen wir den Durchsatz bei gleichzeitig geringer Latenz. Ein Problem besteht darin, dass wir nicht mehr in der Lage sind, die durch KV-Caching bereitgestellte niedrige Latenz beizubehalten. Wenn eine neue Anfrage dem Batch beitritt, muss der KV-Cache gefüllt werden, und die Initialisierungsphase verlangsamt den Decodierungsprozess des Batches.

Diese Art von Strategie ist für Textgenerierungsdienste mit hoher Anforderungslast wie ChatGPT, Gemini oder Claude unvermeidlich und eine großartige Möglichkeit, die Bereitstellungskosten zu minimieren!"

Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können. Die Bereitstellung eines Textgenerierungsdienstes unterscheidet sich erheblich von den meisten anderen Anwendungen für maschinelles Lernen

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.