- Publié le
Meta défie l'architecture du transformateur avec Megalodon LLM
- Auteurs
- Nom
- AbnAsia.org
- @steven_n_t
"Un nouveau modèle d'apprentissage automatique (ML) proposé par des chercheurs de Meta et de l'Université de Californie du Sud vise à résoudre certains des défis fondamentaux du Transformer, l'architecture d'apprentissage en profondeur qui a donné naissance à l'ère des grands modèles de langage (LLM).
Le nouveau modèle, appelé Megalodon, permet aux modèles de langage d'étendre leur fenêtre contextuelle à des millions de jetons sans nécessiter d'énormes quantités de mémoire. Les expériences montrent que Megalodon surpasse les modèles Transformer de taille égale dans le traitement de textes volumineux. Megalodon est le dernier d'une série de nouveaux modèles proposés pour succéder au Transformer.
Longues fenêtres contextuelles
La « fenêtre contextuelle » est le nombre de jetons sur lesquels un modèle peut travailler à tout moment. Des fenêtres contextuelles plus grandes permettent aux LLM d'avoir des conversations plus longues, de traiter des documents plus longs et d'étendre leurs capacités d'apprentissage en contexte. Cependant, l'extension de la fenêtre contextuelle de Transformers a un coût élevé.
Le Transformer a une « complexité quadratique », ce qui signifie que chaque fois que vous doublez la taille de l'entrée, la mémoire et le temps de calcul requis pour traiter l'entrée quadruple. Cette relation quadratique est due au mécanisme d'auto-attention des transformateurs, qui compare chaque élément de la séquence d'entrée avec tous les autres éléments.
Megalodon de Meta s'appuie sur Moving Average Equipé Gated Attention (MEGA), une technique qui a été présentée pour la première fois en 2022. MEGA apporte des modifications au mécanisme d'attention de manière à réduire considérablement la complexité du modèle, permettant au LLM de traiter des entrées plus longues sans exploser. les besoins en mémoire et en calcul. MEGA utilise également la moyenne mobile exponentielle (EMA), une technique éprouvée qui aide les modèles à mettre l'accent sur les relations locales et longue distance entre les jetons. Cela peut aider les modèles à maintenir leur cohérence à mesure que davantage d'informations sont introduites dans la fenêtre contextuelle.
Mégalodon
Megalodon améliore encore MEGA avec quelques modifications clés de l'architecture qui mettent ses performances à égalité avec le mécanisme d'attention totale utilisé dans le modèle Transformer d'origine. Megalodon utilise également « l'attention par morceaux », qui divise la séquence d'entrée en blocs de taille fixe pour réduire la complexité du modèle de quadratique à linéaire. L'attention portée aux fragments permet également d'ajouter une couche supplémentaire de parallélisme qui accélère la formation du modèle.
Les chercheurs ont formé une version de Megalodon comportant 7 milliards de paramètres sur 2 000 milliards de jetons et l'ont comparée aux modèles Llama-2-7B, 13B et autres. Leurs expériences montrent que Megalodon-7B « surpasse considérablement la variante de pointe du Transformer utilisée pour entraîner LLAMA2-7B à la fois sur le plan de la formation et sur les points de référence en aval ». Sur certaines tâches, Megalodon-7B égale les performances de Llama-2-13B.
Avec une fenêtre contextuelle de 4 000 jetons, Megalodon est légèrement plus lent que Llama-2, mais lorsque la longueur du contexte est étendue à 32 000 jetons, Megalodon surpasse considérablement Llama-2 en raison de son efficacité de calcul. En outre, les chercheurs affirment que les résultats expérimentaux sur la modélisation à contexte long suggèrent que Megalodon peut modéliser des séquences de longueur illimitée.
Les chercheurs ont également obtenu des résultats prometteurs lors d'expériences à petite et moyenne échelle sur d'autres modalités de données et travailleront plus tard sur l'adaptation de Megalodon à des contextes multimodaux. Les chercheurs ont publié le code de Megalodon sur GitHub avec une licence MIT, ce qui signifie qu'il peut être adapté et utilisé à des fins commerciales sans restriction.
Les transformateurs dominent toujours
Les scientifiques recherchent des architectures alternatives pouvant remplacer les transformateurs. Quelques exemples notables incluent l'architecture Mamba, qui dispose désormais d'un déploiement commercial avec AI21 Labs Jamba. Une autre architecture potentiellement prometteuse est celle des réseaux de neurones liquides, une architecture générale d'apprentissage profond permettant de traiter tout type de données séquentielles, développée par des chercheurs du MIT.
Cependant, pour le moment, les Transformers restent l'architecture dominante pour les modèles de langage. Alors que Meta explore des architectures telles que Megalodon, elle continue de travailler à l'amélioration de ses modèles Transformer et vient de publier Llama-3, la dernière version de ses LLM open source.
Un autre défi pour les concurrents de Transformer concerne les outils matériels et logiciels requis. Il existe un vaste écosystème de bibliothèques et d'outils permettant de former, d'affiner et de personnaliser les modèles Transformer pour différentes applications et périphériques matériels. Dans le même temps, les chercheurs ont développé un code logiciel de bas niveau qui optimise les performances des Transformer LLM sur les appareils à mémoire limitée. Les alternatives n'ont pas encore rattrapé ces évolutions.
Pendant ce temps, d'autres chercheurs travaillent à la modification de l'architecture du Transformer afin de réduire ses besoins en mémoire et en calcul. Par exemple, Infini-attention, un article récent rédigé par des chercheurs de Google, vise à donner aux modèles Transformer des fenêtres contextuelles illimitées sans augmenter la mémoire ni la complexité de calcul. Les modèles frontières actuels prennent en charge la saisie de centaines de milliers de jetons.
Cependant, la recherche sur l'IA progresse rapidement. Lorsque le document Transformer a été publié en 2017, peu de gens pensaient qu'il aurait un tel impact. L'un de ces modèles pourrait s'avérer battre le Transformer à son propre jeu."
Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.
Auteur
AiUTOMATING PEOPLE, ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.
N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.
© ABN ASIA