Wussten Sie, dass LLama 2 oder 3 wahrscheinlich zu den besten Optionen gehören, wenn Sie ein großes Kontextfenster mit einem Open-Source-Modell benötigen?

"Wussten Sie, dass LLama 2 oder 3 wahrscheinlich zu den besten Optionen gehören, wenn Sie ein großes Kontextfenster mit einem Open-Source-Modell benötigen? Tatsächlich ist jedes Modell, das die RoPE-Positionseinbettung verwendet, eine gute Wahl!

8192 Token, das sind etwa 6000 Wörter. Nicht schlecht, schränkt aber die Einsatzmöglichkeiten ein. Die typische Transformer-Architektur besteht aus Einbettungen zur Kodierung der Texteingabe, mehreren Transformer-Blöcken und einem Vorhersagekopf, der speziell auf die Lernaufgabe zugeschnitten ist, für die das LLM verwendet wird. Um den Text zu kodieren, verwenden wir eine Texteinbettungsmatrix T, die die Größe des Token-Vokabulars hat, und eine Positionseinbettungsmatrix P, die die Position des Tokens in der Eingabesequenz kodiert. Diese Positionseinbettungsgröße definiert die Kontextgröße. Diese Einbettung kann erlernt werden oder eine einfache Sinusfunktion des Positionsindex sein. Normalerweise werden sie T + P addiert, sodass dasselbe Wort an den Positionen i und j unterschiedlich codiert wird.

Das Tolle an LLama ist, dass es Rotary Positional Embeddings (RoPE) im Gegensatz zur typischen Sin-Funktionskodierung verwendet. Jede Aufmerksamkeitsschicht wird mithilfe dieser Einbettung geändert und stellt sicher, dass die berechnete Aufmerksamkeit zwischen Eingabe-Tokens nur vom Abstand zwischen diesen Token abhängt. Befindet sich Token T1 an Position i und ein Token T2 an Position j, ist die Aufmerksamkeit A(T1, T2) = f(j - i) eine Funktion von j - i. Die Aufmerksamkeit hängt nicht von den Standorten der einzelnen Token ab, sondern von ihren relativen Positionen.

Die Technik, die sie bei Meta verwenden, um das Kontextfenster zu erweitern, besteht darin, an nicht ganzzahligen Positionen zu interpolieren. Wenn die ursprüngliche Fenstergröße L ist, können Sie sie grundsätzlich auf L' erweitern (mit L' > L), indem Sie die ganzzahligen Positionen neu skalieren

i' = i * L / L'

Wenn Sie beispielsweise eine Texteingabe von 16.384 Token (also 4x die Fenstergröße von LLama 2) in LLama 2 haben möchten, müssten Sie einfach jede ganzzahlige Position durch 4 dividieren: i' = i / 4. Um zu sein Klar, wenn man sich die Implementierung von LLama 2 anschaut, die auf GitHub verfügbar ist (Zeile 101 in model.py heute https://lnkd.in/exqcTkDD), müsste man nur die folgende Codezeile ersetzen

t = Torch.arange(end, device=freqs.device) von t = Torch.arange(end, device=freqs.device) / 4

Wie einfach ist das? Da das Modell nicht für diese Positionseinbettung trainiert wurde, müssten Sie das Modell etwas verfeinern, um es an das neue Kontextfenster und die Positionseinbettung anzupassen. Wenn wir davon ausgehen, dass LLama 2 höchstwahrscheinlich zur Feinabstimmung privater Daten verwendet wird, ist das das Tüpfelchen auf dem i, um das Kontextfenster während der Feinabstimmung dynamisch an unsere Bedürfnisse anpassen zu können.

Sie können sich die Methode hier ansehen: https://lnkd.in/dCYuwdHz. Sie konnten das Kontextfenster von LLama um das 16-fache erweitern und dabei die Leistung auf dem gleichen Niveau halten!"

Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können. Wussten Sie, dass LLama 2 oder 3 wahrscheinlich zu den besten Optionen gehören, wenn Sie ein großes Kontextfenster mit einem Open-Source-Modell benötigen?

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.