2025年LLM年度回顾

作者：安德烈·卡帕斯 (Andrey Karpathy)

2025年是大型语言模型（LLM）取得强劲且多事进展的一年。以下是我个人认为值得关注且略感意外的“范式变迁”清单——这些变化改变了行业格局，并在概念上令我印象深刻。

1. 基于可验证奖励的强化学习 (RLVR) 在2025年初，所有实验室的LLM生产堆栈大致如下：预训练（约2020年的GPT-2/3）有监督微调（约2022年的InstructGPT）以及基于人类反馈的强化学习（约2022年的RLHF）在相当长的一段时间里，这是训练生产级LLM的稳定且成熟的配方。而在2025年，基于可验证奖励的强化学习（RLVR）脱颖而出，成为这一组合中事实上的新主要阶段。通过在多种环境（例如数学/代码谜题）中针对自动可验证的奖励进行训练，LLM自发地发展出了在人类看来像是“推理”的策略——它们学会了将问题解决过程分解为中间计算，并学会了多种反复推敲的解题策略（参见DeepSeek R1论文中的示例）。在之前的范式中，这些策略很难实现，因为并不清楚LLM的最佳推理轨迹和错误恢复路径应该是怎样的——它必须通过针对奖励的优化，找到适合自己的方式。与SFT和RLHF阶段（两者在计算上都是相对较薄/较短的微调阶段）不同，RLVR涉及针对客观（不可作弊）奖励函数的训练，这允许进行更长时间的优化。事实证明，运行RLVR提供了极高的“能力/投入比”，吞噬了原本用于预训练的算力。因此，2025年大部分的能力进步都源于LLM实验室对这一新阶段“技术红利”的消化；总的来看，我们看到的LLM规模相近，但RL运行时间要长得多。同样，这一新阶段所特有的是，我们获得了一个全新的控制旋钮（以及相关的缩放定律）：通过生成更长的推理轨迹并增加“思考时间”，将能力作为测试时计算（test time compute）的函数进行控制。OpenAI o1（2024年末）是RLVR模型的首次展示，但o3的发布（2025年初）才是明显的拐点，让你能直观地感受到差异。

2. 幽灵 vs. 动物 / 锯齿状智能 2025年是我（我想整个行业也是如此）第一次开始从更直观的意义上内化LLM智能的“形状”。我们不是在“进化/培养动物”，而是在“召唤幽灵”。LLM堆栈的一切都是不同的（神经架构、训练数据、训练算法，尤其是优化压力），因此我们在智能领域得到了截然不同的实体，用看待动物的视角去思考它们是不恰当的。从监督比特的角度来看，人类神经网络是为了部落在丛林中的生存而优化的，但LLM神经网络是为了模仿人类文本、在数学谜题中获取奖励以及在LM Arena上获得人类的点赞而优化的。由于可验证领域允许RLVR，LLM在这些领域附近的能力会发生“激增”，并整体表现出有趣的锯齿状性能特征——它们既是天才博学家，又是困惑且认知障碍的小学生，几秒钟后就可能被一段越狱指令诱导泄露你的数据。人类智能：蓝色，AI智能：红色。我喜欢这个迷因图的版本（抱歉我弄丢了它在X上原始帖子的引用），因为它指出人类智能也以其独特的方式呈现锯齿状。与此相关的是，我在2025年对基准测试（benchmarks）普遍感到冷淡并失去了信任。核心问题在于，基准测试几乎从结构上就是可验证的环境，因此极易受到RLVR以及通过合成数据生成的弱化版RLVR的影响。在典型的“刷榜”过程中，LLM实验室的团队不可避免地在基准测试所占据的嵌入空间小口袋附近构建环境，并长出“锯齿”来覆盖它们。“在测试集上训练”成了一种新的艺术形式。如果碾压了所有基准测试却仍未实现通用人工智能（AGI），那会是什么样子？关于本节的主题，我在这里写了更多内容：《动物 vs. 幽灵》《可验证性》《心智空间》

3. Cursor / LLM应用的新层级 关于Cursor，我发现最值得注意的一点（除了它今年流星般的崛起）是，它令人信服地揭示了“LLM应用”的一个新层级——人们开始谈论“针对X领域的Cursor”。正如我在今年Y Combinator演讲（文稿和视频）中所强调的，像Cursor这样的LLM应用为特定垂直领域捆绑并编排LLM调用：它们进行“上下文工程” 它们在后台编排多个LLM调用，串联成日益复杂的有向无环图（DAG），仔细权衡性能和成本。它们为环节中的人类提供特定应用的图形用户界面（GUI）它们提供一个“自主性滑块” 2025年有很多关于这个新应用层有多“厚”的讨论。LLM实验室会占领所有应用，还是LLM应用仍有广阔天地？我个人怀疑，LLM实验室倾向于培养出能力通众的“大学毕业生”，而LLM应用则会通过提供私有数据、传感器、执行器和反馈闭环，将他们组织、微调并激活成部署在特定垂直领域的“专业团队”。

4. Claude Code / 住在你电脑里的AI Claude Code (CC) 的出现，是LLM智能体（Agent）形态的首次令人信服的展示——它以循环往复的方式将工具使用和推理串联起来，以解决长程问题。此外，CC令我瞩目的一点是，它运行在你的电脑上，使用你的私有环境、数据和上下文。我认为OpenAI在这点上做错了，因为他们将代码/智能体的努力重点放在了从ChatGPT编排的云端容器部署上，而不是localhost。虽然在云端运行的智能体集群感觉像是“AGI的终局”，但我们生活在一个能力呈锯齿状、技术起飞速度适中的中间世界，直接在电脑上运行智能体，与开发者及其特定配置并肩作战更有意义。CC把握住了这种优先级顺序，并将其包装成一个精美、极简、引人入胜的命令行界面（CLI）形态，改变了AI的形象——它不仅仅是一个像Google那样你去访问的网站，它是一个“住”在你电脑里的小精灵/幽灵。这是一种全新的、独特的AI交互范式。

5. 氛围编程 (Vibe coding) 2025年，AI跨越了构建各种令人印象深刻的程序所需的能力门槛，只需通过英语即可完成，甚至可以忘记代码的存在。有趣的是，我在那条“淋浴随笔”推文中创造了“氛围编程”这个词，完全没意识到它会走多远 :)。有了氛围编程，编程不再严格保留给受过高度训练的专业人士，而是任何人都能做的事情。在这种能力下，它是我在《赋能于民：LLM如何颠覆技术扩散的剧本》中所写内容的又一例证：即（与迄今为止所有其他技术形成鲜明对比）普通人从LLM中获益远超专业人士、企业和政府。氛围编程不仅赋予普通人涉足编程的能力，它还赋予受过训练的专业人士编写更多（氛围编程的）软件的能力，而这些软件在以前是绝不会被写出来的。在nanochat项目中，我用Rust“氛围编程”了我自己定制的高效BPE分词器，而不需要采用现有的库或在那个水平上学习Rust。我今年氛围编程了许多项目，作为我想要存在的东西的快速应用演示（例如参见menugen, llm-council, reader3, HN time capsule）。我甚至为了找一个Bug而氛围编程了整个临时应用，因为为什么不呢——代码突然变得免费、短暂、可塑，且单次使用后即可丢弃。氛围编程将重塑软件地貌并改变职位描述。

6. Nano banana / LLM GUI Google Gemini Nano banana 是2025年最令人难以置信、最具范式转移意义的模型之一。在我的世界观中，LLM是继1970、80年代计算机之后的下一个主要计算范式。因此，我们将看到出于根本相似的原因而出现的类似创新。我们将看到个人计算、微控制器（认知核心）或互联网（智能体互联网）等的等价物。特别是在UIUX方面，与LLM“聊天”有点像在1980年代向计算机控制台发布命令。文本是计算机（和LLM）原始/偏好的数据表示形式，但它不是人类偏好的格式，尤其是在输入端。人们实际上不喜欢阅读文本——它缓慢且费力。相反，人们喜欢直观地、空间化地消费信息，这就是传统计算中GUI被发明的原因。同样，LLM应该以我们偏好的格式与我们交流——通过图像、信息图、幻灯片、白板、动画/视频、Web应用等。当然，这方面的早期和当前版本是表情符号和Markdown，它们是以标题、加粗、斜体、列表、表格等方式对文本进行“装饰”和视觉排版以便于消费的方法。但究竟谁来构建LLM GUI？在这种视角下，nano banana是这种可能性的第一个早期暗示。重要的是，它值得注意的一点在于，它不仅仅关乎图像生成本身，更关乎来自文本生成、图像生成和世界知识的联合能力，所有这些都交织在模型权重中。

总结 (TLDR)：2025年是LLM令人兴奋且略感意外的一年。LLM正在作为一种新型智能出现，它既比我预期的聪明得多，又比我预期的笨得多。无论如何，它们都极其有用，而且我认为即使以目前的能力，行业实现的潜力还不到10%。与此同时，有太多的想法可以尝试，从概念上讲，这个领域感觉大有可为。正如我今年早些时候在Dwarkesh播客中提到的，我同时（且表面上矛盾地）相信，我们既会看到快速且持续的进展，又仍有大量工作要做。系好安全带。

请注意，中文版本是由 AI 辅助翻译的，因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立，他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务，我们帮助企业提升水平，走向全球舞台。我们的承诺：更快。更好。更可靠。在大多数情况下：也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案，还是想向我们发送招标要求（RFPs），都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。