2025 LLM-Jahresrückblick

Von Andrey Kapathy

2025 war ein starkes und ereignisreiches Jahr des Fortschritts bei LLMs. Das Folgende ist eine Liste persönlich bemerkenswerter und leicht überraschender „Paradigmenwechsel“ – Dinge, die die Landschaft verändert haben und für mich konzeptionell herausstachen.

Reinforcement Learning from Verifiable Rewards (RLVR) Anfang 2025 sah der LLM-Produktionsstack in fast allen Laboren etwa so aus: Vortraining (GPT-2/3 von ca. 2020) Überwachtes Finetuning (InstructGPT ca. 2022) und Reinforcement Learning from Human Feedback (RLHF ca. 2022) Dies war für eine Weile das stabile und bewährte Rezept für das Training eines LLMs auf Produktionsniveau. Im Jahr 2025 etablierte sich Reinforcement Learning from Verifiable Rewards (RLVR) de facto als neue wichtige Phase in diesem Mix. Durch das Training von LLMs gegen automatisch verifizierbare Belohnungen in einer Reihe von Umgebungen (z. B. Mathematik- oder Code-Rätsel) entwickeln die LLMs spontan Strategien, die für Menschen wie „logisches Denken“ (Reasoning) aussehen – sie lernen, Problemlösungen in Zwischenberechnungen zu zerlegen, und sie erlernen eine Reihe von Problemlösungsstrategien, um durch Vor- und Zurückprobieren Dinge herauszufinden (siehe das DeepSeek R1-Paper für Beispiele). Diese Strategien wären in den vorherigen Paradigmen nur sehr schwer zu erreichen gewesen, da nicht klar ist, wie die optimalen Denkpfade und Fehlerkorrekturen für das LLM aussehen – es muss durch die Optimierung gegen Belohnungen selbst finden, was für es funktioniert. Im Gegensatz zu den SFT- und RLHF-Phasen, die beide relativ dünne/kurze Phasen sind (rechentechnisch geringfügige Finetunes), beinhaltet RLVR das Training gegen objektive (nicht manipulierbare) Belohnungsfunktionen, was eine viel längere Optimierung ermöglicht. Es stellte sich heraus, dass RLVR eine hohe Fähigkeit pro investiertem Dollar bietet, was die Rechenleistung verschlang, die ursprünglich für das Vortraining vorgesehen war. Daher war der Großteil des Fortschritts bei den Fähigkeiten im Jahr 2025 dadurch definiert, dass die LLM-Labore den Überhang dieser neuen Phase abarbeiteten; insgesamt sahen wir LLMs ähnlicher Größe, aber viel längere RL-Läufe. Einzigartig an dieser neuen Phase ist auch, dass wir einen völlig neuen Regler (und ein dazugehöriges Skalierungsgesetz) erhielten, um die Fähigkeiten als Funktion der Rechenleistung zur Testzeit zu steuern, indem längere Denkpfade generiert und die „Denkzeit“ erhöht wurden. OpenAI o1 (Ende 2024) war die allererste Demonstration eines RLVR-Modells, aber die Veröffentlichung von o3 (Anfang 2025) war der offensichtliche Wendepunkt, an dem man den Unterschied intuitiv spüren konnte.
Geister vs. Tiere / Zackige Intelligenz 2025 ist das Jahr, in dem ich (und ich denke auch der Rest der Branche) begann, die „Form“ der LLM-Intelligenz intuitiver zu verinnerlichen. Wir züchten keine „wachsenden Tiere“, wir „beschwören Geister“. Alles am LLM-Stack ist anders (neuronale Architektur, Trainingsdaten, Trainingsalgorithmen und insbesondere der Optimierungsdruck), daher sollte es nicht überraschen, dass wir im Bereich der Intelligenz völlig andere Entitäten erhalten, die man nicht durch eine tierische Brille betrachten sollte. Was die Überwachungs-Bits betrifft, sind menschliche neuronale Netze auf das Überleben eines Stammes im Dschungel optimiert, aber LLM-Netze sind darauf optimiert, die Texte der Menschheit zu imitieren, Belohnungen in Mathe-Rätseln zu sammeln und ein Upvote von einem Menschen in der LM Arena zu erhalten. Da verifizierbare Domänen RLVR ermöglichen, zeigen LLMs in der Nähe dieser Domänen sprunghafte Anstiege ihrer Fähigkeiten und weisen insgesamt amüsant zackige Leistungsmerkmale auf – sie sind gleichzeitig ein genialer Universalgelehrter und ein verwirrter, kognitiv beeinträchtigter Grundschüler, der nur Sekunden davon entfernt ist, durch einen Jailbreak ausgetrickst zu werden, um Ihre Daten zu exfiltrieren. Menschliche Intelligenz: blau, KI-Intelligenz: rot. Ich mag diese Version des Memes (leider habe ich den Verweis auf den Originalpost auf X verloren), weil sie darauf hinweist, dass auch die menschliche Intelligenz auf ihre eigene Weise zackig ist. Damit verbunden ist meine allgemeine Apathie und mein Vertrauensverlust in Benchmarks im Jahr 2025. Das Kernproblem ist, dass Benchmarks fast konstruktionsbedingt verifizierbare Umgebungen sind und daher sofort anfällig für RLVR und schwächere Formen davon über die Generierung synthetischer Daten sind. Im typischen „Benchmaxxing“-Prozess konstruieren Teams in LLM-Laboren unweigerlich Umgebungen, die an kleine Taschen des durch Benchmarks besetzten Embedding-Raums angrenzen, und lassen „Zacken“ wachsen, um diese abzudecken. Das Training auf dem Testset ist eine neue Kunstform. Wie sieht es aus, wenn man alle Benchmarks knackt, aber immer noch keine AGI erreicht? Ich habe hier viel mehr zum Thema dieses Abschnitts geschrieben: Animals vs. Ghosts Verifiability The Space of Minds
Cursor / Eine neue Ebene von LLM-Apps Was ich an Cursor am bemerkenswertesten finde (abgesehen von seinem kometenhaften Aufstieg in diesem Jahr), ist, dass es überzeugend eine neue Ebene einer „LLM-App“ offenbart hat – die Leute begannen, von „Cursor für X“ zu sprechen. Wie ich in meinem Y-Combinator-Vortrag in diesem Jahr hervorgehoben habe (Transkript und Video), bündeln und orchestrieren LLM-Apps wie Cursor LLM-Aufrufe für spezifische Vertikalen: Sie übernehmen das „Kontext-Engineering“. Sie orchestrieren im Hintergrund mehrere LLM-Aufrufe, die zu immer komplexeren DAGs (gerichteten azyklischen Graphen) verknüpft sind, wobei sie sorgfältig die Abwägung zwischen Leistung und Kosten ausbalancieren. Sie bieten eine anwendungsspezifische Benutzeroberfläche für den „Human in the Loop“. Sie bieten einen „Autonomie-Schieberegler“. Im Jahr 2025 wurde viel darüber diskutiert, wie „dick“ diese neue App-Ebene ist. Werden die LLM-Labore alle Anwendungen an sich reißen, oder gibt es grüne Wiesen für LLM-Apps? Ich persönlich vermute, dass LLM-Labore dazu tendieren werden, den allgemein fähigen „College-Studenten“ hervorzubringen, aber LLM-Apps werden Teams von ihnen organisieren, finetunen und tatsächlich als einsatzbereite Profis in spezifischen Vertikalen animieren, indem sie private Daten, Sensoren, Aktoren und Feedbackschleifen bereitstellen.
Claude Code / KI, die auf Ihrem Computer lebt Claude Code (CC) erwies sich als die erste überzeugende Demonstration dessen, wie ein LLM-Agent aussieht – etwas, das in einer Schleife Werkzeugnutzung und logisches Denken für eine erweiterte Problemlösung verknüpft. Darüber hinaus ist CC für mich bemerkenswert, weil es auf Ihrem Computer und mit Ihrer privaten Umgebung, Ihren Daten und Ihrem Kontext läuft. Ich denke, OpenAI hat das falsch eingeschätzt, weil sie ihre Codex-/Agenten-Bemühungen auf Cloud-Bereitstellungen in Containern konzentriert haben, die von ChatGPT aus orchestriert werden, anstatt auf localhost. Und während sich Agenten-Schwärme in der Cloud wie das „AGI-Endspiel“ anfühlen, leben wir in einer Welt des mittleren und langsam genugen Starts mit zackigen Fähigkeiten, in der es mehr Sinn ergibt, die Agenten einfach auf dem Computer laufen zu lassen, Hand in Hand mit den Entwicklern und deren spezifischem Setup. CC hat diese Priorisierung richtig hinbekommen und sie in einem schönen, minimalen und fesselnden CLI-Formfaktor verpackt, der das Erscheinungsbild von KI verändert hat – es ist nicht nur eine Website, die man wie Google besucht, es ist ein kleiner Geist, der auf dem Computer „lebt“. Dies ist ein neues, eigenständiges Paradigma der Interaktion mit einer KI.
Vibe-Coding 2025 ist das Jahr, in dem KI eine Fähigkeitsschwelle überschritten hat, die notwendig ist, um alle Arten von beeindruckenden Programmen einfach über Englisch zu erstellen, wobei man vergisst, dass der Code überhaupt existiert. Amüsanterweise habe ich den Begriff „Vibe-Coding“ in diesem „Gedanken unter der Dusche“-Tweet geprägt, völlig ahnungslos, wie weit das führen würde :). Mit Vibe-Coding ist das Programmieren nicht mehr streng hochqualifizierten Fachkräften vorbehalten; es ist etwas, das jeder tun kann. In dieser Eigenschaft ist es ein weiteres Beispiel für das, was ich in „Power to the people: How LLMs flip the script on technology diffusion“ geschrieben habe – darüber, wie (im krassen Gegensatz zu jeder anderen bisherigen Technologie) normale Menschen viel mehr von LLMs profitieren als Profis, Unternehmen und Regierungen. Aber Vibe-Coding befähigt nicht nur normale Menschen, sich dem Programmieren zu nähern, es befähigt auch ausgebildete Profis, viel mehr (vibe-codierte) Software zu schreiben, die sonst nie geschrieben worden wäre. In nanochat habe ich meinen eigenen, hocheffizienten BPE-Tokenizer in Rust vibe-codiert, anstatt bestehende Bibliotheken übernehmen oder Rust auf diesem Niveau lernen zu müssen. Ich habe dieses Jahr viele Projekte als schnelle App-Demos von etwas vibe-codiert, das ich mir wünschte (siehe z. B. menugen, llm-council, reader3, HN time capsule). Und ich habe ganze flüchtige Apps vibe-codiert, nur um einen einzigen Bug zu finden, denn warum nicht – Code ist plötzlich kostenlos, vergänglich, formbar und nach einmaligem Gebrauch wegwerfbar. Vibe-Coding wird die Softwarelandschaft umgestalten und Berufsbilder verändern.
Nano Banana / LLM-GUI Google Gemini Nano Banana ist eines der unglaublichsten, paradig

Bitte beachten Sie, dass die deutsche Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können.

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.