Rétrospective 2025 des LLM

Par Andrej Karpathy

L'année 2025 a été une année de progrès forte et riche en événements pour les LLM. Voici une liste de « changements de paradigme » personnellement notables et légèrement surprenants — des éléments qui ont modifié le paysage et qui m'ont marqué sur le plan conceptuel.

1. L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) Au début de l'année 2025, la pile de production des LLM dans tous les laboratoires ressemblait à ceci : Pré-entraînement (GPT-2/3 vers 2020) Réglage fin supervisé (SFT - InstructGPT vers 2022) et Apprentissage par renforcement à partir du feedback humain (RLHF vers 2022) C'était, pendant un certain temps, la recette stable et éprouvée pour entraîner un LLM de qualité production. En 2025, l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) est apparu comme la nouvelle étape majeure de facto à ajouter à ce mélange. En entraînant les LLM face à des récompenses vérifiables automatiquement dans un certain nombre d'environnements (par exemple, des énigmes mathématiques ou de code), les LLM développent spontanément des stratégies qui ressemblent à du « raisonnement » pour les humains — ils apprennent à décomposer la résolution de problèmes en calculs intermédiaires et acquièrent un certain nombre de stratégies de résolution pour faire des allers-retours afin de trouver la solution (voir l'article sur DeepSeek R1 pour des exemples). Ces stratégies auraient été très difficiles à obtenir avec les paradigmes précédents, car on ne sait pas exactement à quoi ressemblent les traces de raisonnement et de correction optimales pour le LLM — il doit trouver ce qui fonctionne pour lui, via l'optimisation par rapport aux récompenses.

Contrairement aux étapes SFT et RLHF, qui sont toutes deux des étapes relativement légères/courtes (des réglages fins mineurs sur le plan computationnel), le RLVR implique un entraînement contre des fonctions de récompense objectives (non manipulables), ce qui permet une optimisation beaucoup plus longue. L'exécution du RLVR s'est avérée offrir un ratio capacité/$ élevé, ce qui a englouti la puissance de calcul initialement prévue pour le pré-entraînement. Par conséquent, la majeure partie des progrès en matière de capacités en 2025 a été définie par les laboratoires de LLM exploitant le potentiel de cette nouvelle étape ; globalement, nous avons vu des LLM de taille similaire, mais avec des cycles de RL beaucoup plus longs. Autre particularité de cette nouvelle étape : nous avons obtenu un tout nouveau curseur (et une loi d'échelle associée) pour contrôler la capacité en fonction du calcul au moment de l'inférence (test time compute) en générant des traces de raisonnement plus longues et en augmentant le « temps de réflexion ». OpenAI o1 (fin 2024) a été la toute première démonstration d'un modèle RLVR, mais la sortie d'o3 (début 2025) a été le point d'inflexion évident où l'on pouvait intuitivement ressentir la différence.

2. Fantômes vs Animaux / Intelligence dentelée C'est en 2025 que j'ai (et je pense que le reste de l'industrie aussi) commencé à intérioriser la « forme » de l'intelligence des LLM de manière plus intuitive. Nous ne faisons pas « évoluer ou grandir des animaux », nous « invoquons des fantômes ». Tout dans la pile LLM est différent (architecture neuronale, données d'entraînement, algorithmes d'entraînement et surtout pression d'optimisation), il n'est donc pas surprenant que nous obtenions des entités très différentes dans l'espace de l'intelligence, qu'il est inapproprié d'appréhender à travers un prisme animal. En termes de bits de supervision, les réseaux neuronaux humains sont optimisés pour la survie d'une tribu dans la jungle, mais les réseaux neuronaux des LLM sont optimisés pour imiter le texte de l'humanité, collecter des récompenses dans des énigmes mathématiques et obtenir ce vote positif d'un humain sur LM Arena. Comme les domaines vérifiables permettent le RLVR, les LLM présentent des « pics » de capacité à proximité de ces domaines et affichent globalement des caractéristiques de performance amusantes et dentelées — ils sont à la fois un génie polymathe et un écolier confus aux capacités cognitives limitées, à deux doigts de se faire piéger par un jailbreak pour exfiltrer vos données.

Intelligence humaine : bleu, intelligence artificielle : rouge. J'aime cette version du mème (je suis désolé d'avoir perdu la référence du post original sur X) car elle souligne que l'intelligence humaine est également dentelée, mais d'une manière différente. Tout cela est lié à mon apathie générale et à ma perte de confiance envers les benchmarks en 2025. Le problème de fond est que les benchmarks sont, presque par construction, des environnements vérifiables et sont donc immédiatement sensibles au RLVR et à ses formes plus faibles via la génération de données synthétiques. Dans le processus typique de « benchmaxxing », les équipes des laboratoires de LLM construisent inévitablement des environnements adjacents aux petites poches de l'espace latent occupées par les benchmarks et font croître des irrégularités pour les couvrir. S'entraîner sur le jeu de test est devenu un nouvel art. À quoi cela ressemble-t-il d'écraser tous les benchmarks sans pour autant atteindre l'AGI ? J'ai écrit beaucoup plus sur le sujet de cette section ici : Animals vs. Ghosts Verifiability The Space of Minds

3. Cursor / la nouvelle couche d'applications LLM Ce que je trouve le plus notable chez Cursor (au-delà de son ascension fulgurante cette année), c'est qu'il a révélé de manière convaincante une nouvelle couche d'« application LLM » — les gens ont commencé à parler de « Cursor pour X ». Comme je l'ai souligné dans ma conférence au Y Combinator cette année (transcription et vidéo), les applications LLM comme Cursor regroupent et orchestrent des appels LLM pour des secteurs verticaux spécifiques :

Elles font de l'« ingénierie de contexte ».
Elles orchestrent de multiples appels LLM en arrière-plan, articulés en graphes (DAG) de plus en plus complexes, en équilibrant soigneusement les compromis entre performance et coût.
Elles fournissent une interface graphique spécifique à l'application pour l'humain dans la boucle.
Elles offrent un « curseur d'autonomie ».

Beaucoup de discussions en 2025 ont porté sur l'« épaisseur » de cette nouvelle couche applicative. Les laboratoires de LLM vont-ils capturer toutes les applications ou existe-t-il des terres vierges pour les applications LLM ? Personnellement, je soupçonne que les laboratoires de LLM auront tendance à produire l'équivalent d'un étudiant généraliste compétent, mais que les applications LLM organiseront, affineront et animeront réellement des équipes de ces modèles pour en faire des professionnels opérationnels dans des secteurs verticaux spécifiques en fournissant des données privées, des capteurs, des actionneurs et des boucles de rétroaction.

4. Claude Code / l'IA qui vit sur votre ordinateur Claude Code (CC) est apparu comme la première démonstration convaincante de ce à quoi ressemble un agent LLM — quelque chose qui, de manière itérative, enchaîne l'utilisation d'outils et le raisonnement pour une résolution de problèmes étendue. De plus, CC est notable à mes yeux car il s'exécute sur votre ordinateur et avec votre environnement, vos données et votre contexte privés. Je pense qu'OpenAI s'est trompé sur ce point car ils ont concentré leurs efforts de codage/agent sur des déploiements cloud dans des conteneurs orchestrés depuis ChatGPT au lieu de localhost. Et bien que des essaims d'agents fonctionnant dans le cloud ressemblent à l'aboutissement de l'AGI, nous vivons dans un monde de décollage intermédiaire et assez lent, aux capacités dentelées, où il est plus logique de simplement faire fonctionner les agents sur l'ordinateur, main dans la main avec les développeurs et leur configuration spécifique. CC a compris cet ordre de priorité et l'a emballé dans un format CLI magnifique, minimaliste et convaincant qui a changé l'image de l'IA — ce n'est pas juste un site web où l'on se rend comme Google, c'est un petit esprit/fantôme qui « vit » sur votre ordinateur. C'est un paradigme d'interaction nouveau et distinct avec une IA.

5. Vibe coding 2025 est l'année où l'IA a franchi le seuil de capacité nécessaire pour construire toutes sortes de programmes impressionnants simplement via l'anglais, en oubliant même que le code existe. De manière amusante, j'ai inventé le terme « vibe coding » dans ce tweet de réflexions sous la douche, sans me douter de l'ampleur que cela prendrait :). Avec le vibe coding, la programmation n'est plus strictement réservée à des professionnels hautement qualifiés, c'est quelque chose que tout le monde peut faire. À ce titre, c'est un autre exemple de ce que j'ai écrit dans Power to the people: How LLMs flip the script on technology diffusion, sur la façon dont (contrairement à toutes les autres technologies jusqu'à présent) les gens ordinaires bénéficient beaucoup plus des LLM que les professionnels, les entreprises et les gouvernements. Mais non seulement le vibe coding permet aux gens ordinaires d'aborder la programmation, mais il permet aussi aux professionnels qualifiés d'écrire beaucoup plus de logiciels (codés au feeling) qui n'auraient jamais été écrits autrement. Dans nanochat, j'ai vibe codé mon propre tokenizer BPE personnalisé et hautement efficace en Rust au lieu de devoir adopter des bibliothèques existantes ou d'apprendre Rust à ce niveau. J'ai vibe codé de nombreux projets cette année comme démonstrations rapides d'applications que je voulais voir exister (par exemple, menugen, llm-council, reader3, HN time capsule). Et j'ai vibe codé des applications entières éphémères juste pour trouver un seul bug parce que, pourquoi pas — le code est soudainement gratuit, éphémère, malléable, jetable après une seule utilisation. Le vibe coding va terraformer le logiciel et modifier les descriptions de postes.

6. Nano banana / L'interface graphique des LLM Google Gemini Nano banana est l'un des modèles les plus incroyables et les plus porteurs de changement de paradigme de 2025. Dans ma vision du monde, les LLM sont le prochain paradigme informatique majeur, similaire aux ordinateurs des années 1970, 80, etc. Par conséquent, nous allons voir apparaître des types d'innovations similaires pour des raisons fondamentalement similaires. Nous allons voir des équivalents de l'informatique personnelle, des microcontrôleurs (cœur cognitif), de l'internet (des agents), etc. En particulier, en termes d'UI/UX, « discuter » avec des LLM ressemble un peu à l'envoi de commandes à une console informatique dans les années 1980. Le texte est la représentation de données brute/privilégiée pour les ordinateurs (et les LLM), mais ce n'est pas le format préféré des gens, surtout en entrée. Les gens n'aiment pas lire du texte — c'est lent et cela demande des efforts. Au lieu de cela, les gens aiment consommer l'information de manière visuelle et spatiale, et c'est pourquoi l'interface graphique (GUI) a été inventée dans l'informatique traditionnelle. De la même manière, les LLM devraient nous parler dans notre

Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.

Auteur

Ai Base Network (ABN), ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.

N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.