Llama-4 enttäuscht nicht!

Die einfache Bereitstellung ist jetzt ein wichtigeres Merkmal von Open-Source-Software (OSS) als die reine Größe. Es wird betont, dass Llama 4 Scout auf einer einzigen H100 laufen kann, im Gegensatz zu Llama-3-401B, das leistungsstark, aber letztendlich weniger verbreitet war. Eine Mischung aus Experten ist ein guter Weg für die OSS-Strategie.
Eine neue Technik namens MetaP optimiert die Trainings-Hyperparameter auf intelligente Weise. Es gibt nicht viele Details, aber ich wette, es ist etwas Ähnliches wie die bayessche Optimierung in Ax, einem Open-Source-Framework von Meta, das adaptive Experimente (wie A/B-Tests) mit begrenztem Testbudget durchführt.
Die Strategie nach dem Training besteht darin, SFT/DPO abzuwerten und RL aufzuwerten, da SFT das Modell übermäßig einschränken und die Erforschung reduzieren kann.
Ein früherer Modell-Checkpoint kann als Kritiker für sein späteres Selbst dienen. Zum Beispiel filtert das Modell einfache Prompts für die nächste Iteration heraus und wird immer besser beim Filtern, während es trainiert.
Llama 4 Behemoth wird mit FP8, 32.000 GPUs und 30 Billionen Token trainiert. Es muss 95 % der SFT-Daten im Vergleich zu 50 % für kleinere Modelle aussortieren. Grund dafür ist, dass die Trainingsdaten für das große Modell zu einfach sind.
Die Tricks, um 10-Millionen-Kontexte zu ermöglichen, scheinen ziemlich einfach zu sein: (1) Entfernen der Positionseingabe aus jedem anderen Aufmerksamkeitsschicht. Es stammt aus einem Paper, das NoPE (Keine Positionseingabe) einführt, cleverer Name lol; (2) Anpassen der Softmax-Aufmerksamkeit an die Kontextgröße.
Grok ist jetzt der SOTA-Standard für LLM-Sozialverzerrung! Zitat: "Llama 4 performt deutlich besser als Llama 3 und ist mit Grok vergleichbar" bei politischer Ausrichtung und Verweigerung, zu antworten.
Herzlichen Glückwunsch zum Team für eine weitere Sternen-Veröffentlichung!

Bitte beachten Sie, dass die deutsche Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können.

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.