Publié le

Llama-4 ne déçoit pas !

Auteurs

Image

  • La facilité de déploiement est désormais une fonctionnalité OSS plus importante que la taille brute. Il est souligné que Llama 4 Scout peut fonctionner sur un seul H100, contrairement à Llama-3-401B, qui était puissant mais avait finalement une adoption moindre. Le mélange d'experts est une bonne voie à suivre pour la stratégie OSS.
  • Une nouvelle technique appelée MetaP ajuste de manière intelligente les hyperparamètres d'entraînement. Rien de plus en détail, mais je parie que c'est quelque chose de proche de l'optimisation bayésienne dans Ax, un cadre open-source de Meta qui effectue des expériences adaptatives (comme les tests A/B) avec un budget d'essai limité.
  • La stratégie post-entraînement consiste à réduire le poids de SFT/DPO et à augmenter le poids de RL, car SFT peut contraindre excessivement le modèle et réduire l'exploration.
  • Un point de contrôle du modèle plus ancien peut servir de critique pour son moi plus tardif. Par exemple, le modèle filtre les invites faciles pour l'itération suivante et devient de mieux en mieux à la filtration à mesure qu'il s'entraîne.
  • Llama 4 Behemoth est entraîné avec FP8, 32 000 GPU et 30 To de jetons. Il doit élaguer 95 % des données SFT par rapport à 50 % pour les modèles plus petits. Fondamentalement, les données d'entraînement sont trop faciles pour le grand modèle.
  • Les astuces pour permettre un contexte de 10M semblent assez simples : (1) supprimer l'incrustation de position de chaque couche d'attention. C'est issu d'un document qui introduit NoPE (No Positional Embedding), nom intelligent lol ; (2) ajuster l'attention softmax en fonction de la taille du contexte.
  • Grok est désormais la norme SOTA pour les biais sociaux des LLM ! Citation : « Llama 4 performs significantly better than Llama 3 and is comparable to Grok » sur l'orientation politique et le refus de répondre.
  • Félicitations à l'équipe pour une autre sortie éblouissante !

Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.

Auteur

AiUTOMATING PEOPLE, ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.

N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software