- Publié le
Qu'est-ce qui rend Llama 3 bon
- Auteurs
- Nom
- AbnAsia.org
- @steven_n_t
"La sortie de Llama 3 était très rare en termes de détails techniques/de recherche. J'ai essayé d'extraire les détails cachés du billet de blog pour répondre aux questions courantes. 👀
Pourquoi Llama 3 est-il meilleur que Llama 2 ?
- Augmentation de 7x de 2T Tokens à 15T sur des séquences de 8 192 tokens.
Qualité des données améliorée grâce à un nouveau filtrage comprenant des filtres heuristiques, des filtres NSFW, des approches de déduplication sémantique (👀) et des classificateurs de texte pour prédire la qualité des données.
Utilisation de Llama 2 pour générer des données d'entraînement synthétiques afin d'entraîner des classificateurs de qualité de texte.
Des expériences approfondies pour trouver la meilleure combinaison de données provenant de différentes sources
Quels changements ont été apportés à Llama 3 ?
Utilisation d'un masque d'attention pour garantir que l'auto-attention ne traverse pas les documents. Cela n'a pas été fait pour Llama2. (ou OpenAI GPT-3)
Augmentation de la longueur de la séquence d'entrée de 4096 à 8192
Nouveau Tokenizer avec un vocabulaire de 128k, entraînant une réduction de 15% des jetons nécessaires par rapport à Llama 2 pour générer le même texte. Cela améliorera également le multilinguisme pour les versions actuelles ou futures. (C'est pourquoi 7B est devenu 8B → couche d'intégration plus grande)
Toutes les tailles de modèles utilisent l'attention de requête groupée (GQA)
Comment Llama 3 Instruct a-t-il été formé ? Autres:
- Utilisation d'une combinaison de réglage fin supervisé (SFT), d'échantillonnage de rejet (RS), d'optimisation de politique proximale (PPO) et d'optimisation de politique directe (DPO)
La formation sur les classements de préférences permet au modèle de s'améliorer pour obtenir la bonne réponse dans le raisonnement
Les données de réglage fin incluent des ensembles de données publics ainsi que plus de 10 millions d'exemples annotés par l'homme. On ne sait pas comment se fait la répartition entre le modèle de récompense et le modèle d'instruction
des invites de haute qualité et des classements de préférences (bon modèle de récompense) sont essentiels
Je suppose : 1️⃣ SFT → 2️⃣ Rejection Sampling → ( 3️⃣ DPO → 4️⃣ PPO) où 3️⃣ & 4️⃣ sont répétés/itérés
Mon avis : un bon modèle de récompense était la clé pour que Llama 3 Instruct devienne aussi bon.
Autres:
5 % de l'ensemble de données de pré-formation sont des données non anglaises/codes en 30 langues.
Même après 15T de jetons, les performances du modèle se sont améliorées de manière log-linéaire 🤯
L'évaluation humaine a été performante avec 1 800 promotions dans 12 sujets différents
Espérons que Meta publiera un article et avec les modèles de récompense dans un avenir proche.🤞🏻"
Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.
Auteur
AiUTOMATING PEOPLE, ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.
N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.
© ABN ASIA