DeepSeek 和 Kimi：为什么他们表现得这么好

是什么让他们表现得如此出色且如此快速？

今天没有想到会有第二篇论文发布，里面包含了大量的强化学习飞轮秘密和多模态o1风格的推理。Kimi（另一家创业公司）和DeepSeek的论文出乎意料地在发现上达成一致：

不需要像MCTS这样的复杂树搜索。只要线性化思维轨迹并进行传统的自回归预测；不需要需要另一个昂贵模型副本的价值函数；不需要密集的奖励建模。尽可能依赖真实结果。

区别：

DeepSeek采用AlphaZero方法 - 仅通过RL进行自举，无需人类输入，即“冷启动”。Kimi采用AlphaGo-Master方法：轻量级SFT预热，通过提示工程CoT轨迹。 DeepSeek的权重采用MIT许可（思想领导！）；Kimi尚未发布模型。 Kimi在MathVista等基准测试中表现出强大的多模态性能（！），需要理解几何、智商测试等视觉内容。 Kimi论文对系统设计有更多细节：RL基础设施、混合集群、代码沙盒、并行策略；以及学习细节：长上下文、CoT压缩、课程、采样策略、测试用例生成等。

请注意，中文版本是由 AI 辅助翻译的，因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立，他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务，我们帮助企业提升水平，走向全球舞台。我们的承诺：更快。更好。更可靠。在大多数情况下：也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案，还是想向我们发送招标要求（RFPs），都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。