- Veröffentlicht am
Was macht Llama 3 gut?
- Autoren

- Name
- AbnAsia.org
- @steven_n_t
"Die Veröffentlichung von Llama 3 war hinsichtlich technischer/Forschungsdetails sehr spärlich. Ich habe versucht, die versteckten Details aus dem Release-Blogbeitrag zu extrahieren, um häufige Fragen zu beantworten. 👀
Warum ist Lama 3 besser als Lama 2?
- Bei Sequenzen von 8.192 Token um das Siebenfache von 2T-Tokens auf 15T skaliert.
Verbesserte Datenqualität durch neue Filterung, einschließlich heuristischer Filter, NSFW-Filter, semantischer Deduplizierungsansätze (👀) und Textklassifikatoren zur Vorhersage der Datenqualität.
Verwendete Llama 2, um synthetische Trainingsdaten zu generieren, um Textqualitätsklassifikatoren zu trainieren.
Umfangreiche Experimente, um den besten Datenmix aus verschiedenen Quellen zu finden
Welche Änderungen wurden an Llama 3 vorgenommen?
Aufmerksamkeitsmaske verwendet, um sicherzustellen, dass die Selbstaufmerksamkeit Dokumente nicht beeinträchtigt. Dies wurde für Llama2 nicht gemacht. (oder OpenAI GPT-3)
Länge der Eingabesequenz von 4096 auf 8192 erhöht
Neuer Tokenizer mit einem Vokabular von 128.000, was im Vergleich zu Llama 2 zu einer Reduzierung der benötigten Token um 15 % führt, um denselben Text zu generieren. Es wird auch die Mehrsprachigkeit für fortlaufende oder zukünftige Versionen verbessern. (Deshalb wurde 7B zu 8B → größere Einbettungsschicht)
Alle Modellgrößen verwenden Grouped Query Attention (GQA)
Wie wurde Llama 3 Instruct trainiert? Andere:
- Verwendet eine Kombination aus Supervised Fine-Tuning (SFT), Rejection Sampling (RS), proximaler Policy-Optimierung (PPO) und direkter Policy-Optimierung (DPO)
Das Training auf Präferenzrankings ermöglicht es dem Modell, die richtige Antwort in der Argumentation zu verbessern
Zu den Feinabstimmungsdaten gehören öffentliche Datensätze sowie über 10 Millionen von Menschen kommentierte Beispiele. Unklar, wie die Verteilung zwischen dem Belohnungsmodell und dem Instruct-Modell ist
Hochwertige Eingabeaufforderungen und Präferenzrankings (gutes Belohnungsmodell) sind der Schlüssel
Meine Vermutung: 1️⃣ SFT → 2️⃣ Ablehnungsstichprobe → (3️⃣ DPO → 4️⃣ PPO), wobei 3️⃣ und 4️⃣ wiederholt/iteriert werden
Meine Vermutung: Ein gutes Belohnungsmodell war der Schlüssel dafür, dass Llama 3 Instruct so gut wurde.
Andere:
5 % des Pre-Training-Datensatzes sind nicht-englische/Code-Daten in 30 Sprachen.
Selbst nach 15T-Token verbesserte sich die Modellleistung logarithmisch linear 🤯
Die menschliche Bewertung war mit 1.800 Werbungen in 12 verschiedenen Themenbereichen leistungsstark
Hoffen wir, dass Meta in naher Zukunft ein Papier mit den Belohnungsmodellen veröffentlichen wird.🤞🏻"
Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können.
AUTOR
Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.
Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.

© ABN ASIA