- Publié le
Les transformateurs peuvent être utilisés pour de nombreuses tâches d'apprentissage, et la seule différence vient de la façon dont nous préparons les données.
- Auteurs
- Nom
- AbnAsia.org
- @steven_n_t
"Les transformateurs peuvent être utilisés pour de nombreuses tâches d'apprentissage, et la seule différence vient de la façon dont nous préparons les données, de la tête de modélisation que nous choisissons et de la fonction de perte que nous utilisons pour optimiser le modèle.
Avec la modélisation causale du langage, le modèle apprend les statistiques linguistiques en se concentrant sur la prédiction du mot suivant dans une séquence. Il s'agit de la manière la plus courante d'effectuer la modélisation du langage de nos jours, et c'est l'approche adoptée depuis GPT-1. La causalité est assurée en appliquant un masque aux matrices d'attention calculées au sein des couches d'attention. Pour éviter de prêter attention aux mots plus tard dans la séquence, nous mettons simplement l'attention sur 0 pour ces mots. Pour entraîner ce modèle, il suffit de décaler les entrées en supprimant le premier mot pour créer les étiquettes.
Pour la classification de texte, nous souhaitons associer les données de texte d'entrée à une certaine catégorie. Par exemple, dans le contexte de l'analyse des sentiments, nous pouvons vouloir classer la phrase d'entrée dans les trois catégories suivantes : [POSITIVE], [NEGATIVE] et [NEUTRAL]. Dans le contexte de la classification de textes, nous n'avons besoin que d'un seul vecteur de prédiction, et la stratégie typique consiste généralement à choisir l'un des états cachés et à le projeter dans l'espace de prédiction. Cela fonctionne car, bien qu'il y ait autant d'états cachés que de jetons d'entrée, après avoir traversé plusieurs blocs de transformation, ils représentent tous une représentation intriquée de la phrase entière. Pour entraîner ce modèle, il nous suffit de comparer les vecteurs de prédiction aux étiquettes catégorielles en utilisant une fonction de perte telle que l'entropie croisée.
La tâche d'apprentissage de la classification des jetons est souvent utilisée pour des applications telles que la reconnaissance d'entités nommées (NER). Nous voulons classer chacun des jetons dans la phrase d'entrée. Par exemple, nous pouvons vouloir associer chacun des mots à leurs catégories grammaticales : [NOM], [VERB] et [ADJECTIF]. Pour chacune des entrées de la séquence, nous avons besoin d'un vecteur de prédiction de la taille du nombre de catégories que nous voulons prédire. Au moment de la formation, nous comparons cette matrice de prédiction pour tous les jetons à leurs catégories dans les étiquettes avec une fonction de perte d'entropie croisée et mettons à jour les poids du modèle."
Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.
Auteur
AiUTOMATING PEOPLE, ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.
N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.
© ABN ASIA