- 发布于
DeepSeek 和 Kimi:为什么他们表现得这么好
- 作者

- 姓名
- AbnAsia.org
- @steven_n_t
是什么让他们表现得如此出色且如此快速?

今天没有想到会有第二篇论文发布,里面包含了大量的强化学习飞轮秘密和多模态o1风格的推理。Kimi(另一家创业公司)和DeepSeek的论文出乎意料地在发现上达成一致:
不需要像MCTS这样的复杂树搜索。只要线性化思维轨迹并进行传统的自回归预测; 不需要需要另一个昂贵模型副本的价值函数; 不需要密集的奖励建模。尽可能依赖真实结果。
区别:
DeepSeek采用AlphaZero方法 - 仅通过RL进行自举,无需人类输入,即“冷启动”。Kimi采用AlphaGo-Master方法:轻量级SFT预热,通过提示工程CoT轨迹。 DeepSeek的权重采用MIT许可(思想领导!);Kimi尚未发布模型。 Kimi在MathVista等基准测试中表现出强大的多模态性能(!),需要理解几何、智商测试等视觉内容。 Kimi论文对系统设计有更多细节:RL基础设施、混合集群、代码沙盒、并行策略;以及学习细节:长上下文、CoT压缩、课程、采样策略、测试用例生成等。
请注意,中文版本是由 AI 辅助翻译的,因此可能存在细微错误。
作者
Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立,他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务,我们帮助企业提升水平,走向全球舞台。我们的承诺:更快。更好。更可靠。在大多数情况下:也更便宜。
无论您需要IT服务、数字咨询、现成软件解决方案,还是想向我们发送招标要求(RFPs),都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。

© ABN ASIA