人类是自然界训练过的最长寿的模型

而且培训仍在继续中

人类是大自然训练过的最长寿的模型——而且训练仍在继续。

人工智能中一个突出的概念是“价值函数”的概念，现代人工智能系统严重依赖于这种机制——估计某个行为是否会使系统朝着良好的结果发展，即使在最终结果尚未知晓之前。与其等待遥远的“奖励”，价值函数提供了密集的反馈，指导模型一步一步地前进。这大大加速了学习：系统不再盲目地穿过长序列；它不断地评估其轨迹的方向。每当系统找到一个有前途的价值函数时，它会将其记录下来，并将其硬编码到人工智能的大脑中。你可以在最近的播客中听到更多关于这些价值函数的内容，播客嘉宾是以色列-加拿大计算机科学家和OpenAI联合创始人Ilya Sutskever，他曾是暂时将Sam Altman从OpenAI中移除的董事会成员之一。

一个问题出现了：训练今天的前沿模型需要数百万个GPU和大量的数据。那么，为什么我们人类成为人工智能的榜样——拥有所有的AGI雄心——而不需要任何GPU或数据集？

我得到了一个认识：令人着迷的是，这与进化对人类所做的工作有多么相似。自然已经花了数百万年来完善我们的内部价值函数——生存本能、社会奖励、恐惧系统、好奇循环、解决问题的满足感。这些不是抽象概念；它们是遗传嵌入的奖励机制，帮助我们的脑部决定我们是否处于一个有前途的道路上。每一代人都继承了一个略微改进的奖励塑造系统，基于那些在历史上增加了生存和繁殖机会的行为。那些经过验证的、有效的价值函数然后被硬编码到我们的DNA中，因此我们出生时就带有预设的、硬编码的、有效的价值函数，以便我们从那里继续“训练”。多么令人着迷。

这就是为什么人类不需要大量的GPU或万亿令牌数据集来变得聪明。我们的学习过程得到了极其强大的、由进化构建的价值函数的支持，这些函数将数百万年的试错过程压缩成生物先验。我们出生时就带有调好的奖励梯度——引导探索、合作、谨慎、创造力和坚持的推动力，甚至在我们理解为什么它们很重要之前。进化完成了漫长的、昂贵的优化；文化和个人经验只是对检查点进行微调。

在这种意义上，人类的智慧不仅仅是“生物硬件”。它是历史上最长的训练循环的产物——这种循环不仅塑造了我们的思维方式，也塑造了我们关心的事物。我们的价值函数是我们的指南针。而这个指南针正是为什么一个缓慢训练的、低计算的生物模型可以比消耗更多原始数据和能量的机器表现得更好的原因。

人类是大自然训练过的最长寿的模型——而且训练仍在继续。

作者：Steven Nguyen

请注意，中文版本是由 AI 辅助翻译的，因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立，他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务，我们帮助企业提升水平，走向全球舞台。我们的承诺：更快。更好。更可靠。在大多数情况下：也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案，还是想向我们发送招标要求（RFPs），都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。