Publié le

Techniques ou outils d'apprentissage automatique

Auteurs

"De nos jours, vous clignez des yeux et il y a 20 nouvelles techniques ou outils d'apprentissage automatique que vous devez découvrir ! L'architecture Mixture of Experts n'est en aucun cas une nouvelle technique, mais elle est désormais devenue la stratégie par défaut pour faire évoluer les LLM. Je me souviens d'avoir lu à ce sujet il y a quelques années et de l'avoir rejeté comme ""encore un autre article de LLM qui n'a probablement pas d'importance"". Eh bien, maintenant c'est important ! La plupart des grands LLM utiliseront probablement cette stratégie à l'avenir !

Le bloc de transformateur typique est une succession d'une couche d'attention, d'une couche de normalisation, d'une couche de rétroaction et d'une autre couche de normalisation. La stratégie pour faire évoluer les transformateurs a consisté simplement à ajouter des blocs de transformateurs les uns après les autres. L'idée du MoE est d'évoluer « horizontalement » en ajoutant davantage de couches de rétroaction parallèles dans chacun des blocs. Ce sont les « experts ».

Avant la couche experts, nous ajoutons un routeur afin que chaque token ne passe que par quelques experts. Par exemple, nous pouvons avoir 64 experts, mais les états cachés du jeton n'en traversant que 2. Cela garantit un apprentissage diversifié tout en minimisant la charge de calcul et, par conséquent, la latence au moment de l'inférence.

Le routeur n'est qu'une couche linéaire qui prend un état caché et produit un vecteur avec autant d'entrées qu'il y a d'experts. En utilisant une transformation softmax, on obtient une probabilité pour chacun des experts. Nous pouvons désormais utiliser ces probabilités pour sélectionner les meilleurs experts et construire une moyenne pondérée des résultats des experts sélectionnés. Par exemple, si l'on prend les 2 meilleurs experts :

nouvel état = P(FFN_1) * FFN_1 (état caché) + P(FFN_2) * FFN_2 (état caché)

Même avec seulement les deux meilleurs experts, le nouvel état caché de sortie peut représenter un ensemble d'informations beaucoup plus riche appris par les différentes combinaisons d'experts. Cela fournit également un moyen très naturel de répartir les calculs du modèle sur plusieurs machines GPU. Chaque machine peut contenir plusieurs experts, et les calculs des différents experts peuvent s'effectuer en parallèle sur les différentes machines.

Cependant, entraîner un modèle MoE n'est pas anodin car cela induit de nombreuses instabilités d'entraînement. L'une des difficultés consiste à s'assurer que chaque expert dispose de suffisamment de données pour apprendre les modèles statistiques pertinents. La stratégie typique consiste à ajouter un terme à la fonction de perte pour fournir une charge de données équilibrée entre les experts."

Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister. Techniques ou outils d'apprentissage automatique

Auteur

AiUTOMATING PEOPLE, ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.

N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software