- Veröffentlicht am
Techniken oder Werkzeuge des maschinellen Lernens
- Autoren

- Name
- AbnAsia.org
- @steven_n_t
"Heutzutage blinzeln Sie und es gibt 20 neue Techniken oder Tools für maschinelles Lernen, die Sie kennenlernen müssen! Die Mixture of Experts-Architektur ist keineswegs eine neue Technik, hat sich jedoch inzwischen zur Standardstrategie für die Skalierung von LLMs entwickelt. Ich erinnere mich, dass ich vor ein paar Jahren darüber gelesen habe und es als „noch ein weiteres LLM-Papier, das wahrscheinlich keine Rolle spielt abgetan habe. Nun, jetzt kommt es darauf an! Die meisten größeren LLMs werden diese Strategie in Zukunft wahrscheinlich nutzen!
Der typische Transformatorblock ist eine Abfolge einer Aufmerksamkeitsschicht, einer Schichtnormalisierung, einer Feed-Forward-Schicht und einer weiteren Schichtnormalisierung. Die Strategie zur Skalierung von Transformatoren bestand darin, einfach nacheinander weitere Transformatorblöcke hinzuzufügen. Die Idee bei MoE besteht darin, „horizontal zu skalieren, indem in jedem der Blöcke weitere parallele Feed-Forward-Schichten hinzugefügt werden. Das sind die „Experten.
Vor der Expertenschicht fügen wir einen Router hinzu, sodass jeder Token nur wenige Experten durchläuft. Wir können zum Beispiel 64 Experten haben, aber die verborgenen Zustände des Tokens durchlaufen nur zwei davon. Dies gewährleistet vielfältiges Lernen und minimiert gleichzeitig die Rechenlast und damit die Latenz zur Inferenzzeit.
Der Router ist lediglich eine lineare Schicht, die einen verborgenen Zustand annimmt und einen Vektor mit so vielen Einträgen erzeugt, wie es Experten gibt. Durch die Verwendung einer Softmax-Transformation erhalten wir eine Wahrscheinlichkeit für jeden Experten. Mithilfe dieser Wahrscheinlichkeiten können wir nun die Top-K-Experten auswählen und einen gewichteten Durchschnitt der Ergebnisse der ausgewählten Experten bilden. Nehmen wir zum Beispiel die Top-2-Experten:
neuer Zustand = P(FFN_1) * FFN_1 (verborgener Zustand) + P(FFN_2) * FFN_2 (verborgener Zustand)
Selbst wenn nur die Top-2-Experten vorhanden sind, kann der neue verborgene Ausgabestatus einen viel umfangreicheren Satz an Informationen darstellen, die von den verschiedenen Expertenkombinationen gelernt wurden. Dies bietet auch eine sehr natürliche Möglichkeit, die Modellberechnungen auf mehrere GPU-Maschinen zu verteilen. Jede Maschine kann mehrere Experten enthalten, und die Berechnungen der verschiedenen Experten können parallel auf den verschiedenen Maschinen erfolgen.
Allerdings ist das Training eines MoE-Modells nicht trivial, da es viele Trainingsinstabilitäten mit sich bringt. Eine Schwierigkeit besteht darin, sicherzustellen, dass jeder Experte genügend Daten sieht, um die relevanten statistischen Muster zu lernen. Die typische Strategie besteht darin, der Verlustfunktion einen Term hinzuzufügen, um eine ausgewogene Datenlast für alle Experten bereitzustellen."
Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können.
AUTOR
Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.
Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.

© ABN ASIA