Meta fordert die Transformatorarchitektur mit Megalodon LLM heraus

"Ein neues Modell für maschinelles Lernen (ML), das von Forschern von Meta und der University of Southern California vorgeschlagen wurde, zielt darauf ab, einige der grundlegenden Herausforderungen des Transformers zu lösen, der Deep-Learning-Architektur, die das Zeitalter der großen Sprachmodelle (LLMs) begründete.

Das neue Modell namens Megalodon ermöglicht es Sprachmodellen, ihr Kontextfenster auf Millionen von Token zu erweitern, ohne große Mengen an Speicher zu benötigen. Experimente zeigen, dass Megalodon Transformer-Modelle gleicher Größe bei der Verarbeitung großer Texte übertrifft. Megalodon ist das neueste einer Reihe neuer Modelle, die als Nachfolger des Transformer vorgeschlagen werden.

Lange Kontextfenster

„Kontextfenster ist die Anzahl der Token, an denen ein Modell jederzeit arbeiten kann. Größere Kontextfenster ermöglichen es LLMs, längere Gespräche zu führen, längere Dokumente zu verarbeiten und ihre kontextbezogenen Lernfähigkeiten zu erweitern. Allerdings ist die Erweiterung des Kontextfensters von Transformers mit hohen Kosten verbunden.

Der Transformer hat eine „quadratische Komplexität, was bedeutet, dass sich der Speicher und die Rechenzeit, die zur Verarbeitung der Eingabe erforderlich sind, jedes Mal vervierfachen, wenn Sie die Größe der Eingabe verdoppeln. Diese quadratische Beziehung ist auf den Selbstaufmerksamkeitsmechanismus in Transformatoren zurückzuführen, der jedes Element in der Eingabesequenz mit jedem anderen Element vergleicht.

Metas Megalodon baut auf Moving Average Ausgestattet Gated Attention (MEGA) auf, einer Technik, die erstmals 2022 vorgestellt wurde. MEGA nimmt Modifikationen am Aufmerksamkeitsmechanismus vor, die die Komplexität des Modells erheblich reduzieren und es dem LLM ermöglichen, längere Eingaben zu verarbeiten, ohne zu explodieren die Speicher- und Rechenanforderungen. MEGA verwendet außerdem den exponentiellen gleitenden Durchschnitt (EMA), eine bewährte Technik, die Modellen hilft, den richtigen Schwerpunkt auf lokale und Fernbeziehungen zwischen Token zu legen. Dies kann dazu beitragen, dass die Modelle ihre Kohärenz aufrechterhalten, da mehr Informationen in das Kontextfenster eingespeist werden.

Megalodon

Megalodon verbessert MEGA weiter durch einige wichtige Änderungen an der Architektur, die seine Leistung auf das Niveau des Vollaufmerksamkeitsmechanismus bringen, der im ursprünglichen Transformer-Modell verwendet wurde. Megalodon verwendet außerdem „Chunk-Wise Attention, das die Eingabesequenz in Blöcke fester Größe unterteilt, um die Komplexität des Modells von quadratisch auf linear zu reduzieren. Durch die Chunk-weise Aufmerksamkeit ist es außerdem möglich, eine zusätzliche Ebene der Parallelität hinzuzufügen, die das Modelltraining beschleunigt.

Die Forscher trainierten eine 7-Milliarden-Parameter-Version von Megalodon auf 2 Billionen Token und verglichen sie mit Llama-2-7B, 13B und anderen Modellen. Ihre Experimente zeigen, dass Megalodon-7B „die hochmoderne Variante von Transformer, die zum Training von LLAMA2-7B verwendet wird, sowohl bei der Trainingsperplexität als auch bei nachgelagerten Benchmarks deutlich übertrifft. Bei einigen Aufgaben erreicht Megalodon-7B die Leistung von Llama-2-13B.

Mit einem Kontextfenster von 4.000 Token ist Megalodon etwas langsamer als Llama-2, aber wenn die Kontextlänge auf 32.000 Token erweitert wird, übertrifft Megalodon Llama-2 aufgrund seiner Recheneffizienz deutlich. Darüber hinaus behaupten die Forscher, dass experimentelle Ergebnisse zur Langkontextmodellierung darauf hindeuten, dass Megalodon Sequenzen unbegrenzter Länge modellieren kann.

Die Forscher haben auch vielversprechende Ergebnisse bei kleinen und mittelgroßen Experimenten zu anderen Datenmodalitäten erzielt und werden später an der Anpassung von Megalodon an multimodale Umgebungen arbeiten. Die Forscher haben den Code für Megalodon auf GitHub mit einer MIT-Lizenz veröffentlicht, was bedeutet, dass er ohne Einschränkung angepasst und für kommerzielle Zwecke genutzt werden kann.

Transformatoren dominieren immer noch

Wissenschaftler haben nach alternativen Architekturen gesucht, die Transformatoren ersetzen können. Zu den bemerkenswerten Beispielen gehört die Mamba-Architektur, die jetzt mit AI21 Labs Jamba kommerziell eingesetzt wird. Eine weitere potenziell vielversprechende Architektur sind flüssige neuronale Netze, eine allgemeine Deep-Learning-Architektur zur Verarbeitung beliebiger sequentieller Daten, die von Forschern am MIT entwickelt wurde.

Allerdings bleiben Transformers vorerst weiterhin die dominierende Architektur für Sprachmodelle. Während Meta Architekturen wie Megalodon erforscht, arbeitet das Unternehmen weiterhin an der Verbesserung seiner Transformer-Modelle und hat gerade Llama-3 veröffentlicht, die neueste Version seiner Open-Source-LLMs.

Eine weitere Herausforderung für Transformer-Konkurrenten sind die erforderlichen Hardware- und Softwaretools. Es gibt ein großes Ökosystem an Bibliotheken und Tools zum Trainieren, Feinabstimmen und Anpassen von Transformer-Modellen für verschiedene Anwendungen und Hardwaregeräte. Gleichzeitig haben Forscher Low-Level-Softwarecode entwickelt, der die Leistung von Transformer-LLMs auf Geräten mit begrenztem Speicher optimiert. Die Alternativen müssen mit diesen Entwicklungen noch Schritt halten.

Unterdessen arbeiten andere Forscher daran, die Transformer-Architektur zu modifizieren, um den Speicher- und Rechenbedarf zu reduzieren. Beispielsweise zielt Infini-attention, ein kürzlich von Google-Forschern veröffentlichtes Papier, darauf ab, Transformer-Modellen unbegrenzte Kontextfenster zu geben, ohne den Speicher und die Rechenkomplexität zu erhöhen. Aktuelle Grenzmodelle unterstützen die Eingabe von Hunderttausenden von Token.

Allerdings schreitet die KI-Forschung rasant voran. Als das Transformer-Papier im Jahr 2017 herauskam, dachten nur wenige, dass es eine solche Wirkung haben würde. Eines dieser Modelle könnte den Transformer mit seinen eigenen Fähigkeiten schlagen."

Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können. Meta fordert die Transformatorarchitektur mit Megalodon LLM heraus

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.