LLMs 如何看待世界

当你在ChatGPT或Claude中输入“Hello world”时，模型并不是像你现在阅读这篇文章一样处理这些字母和空格。它通过大多数人从未思考过的过程将所有内容转换为数字。

首先是预处理。文本被标准化。Unicode字符、间距怪癖和特殊符号都被清理和标准化。“Hello world”变成模型可以实际处理的统一格式。

然后是分词。这是事情变得有趣的地方。模型将文本分解为标记，有不同的方法。

1 - 基于字符的分词将所有内容分解为单个字符。“Hello world”变成["H", "e", "l", "l", "o", " ", "w", "o", "r", "l", "d"]。简单但效率低下。

2 - 基于单词的分词在整个单词上进行分割。["Hello", "world"]。更干净，但难以处理罕见的单词，并且会创建大量的词汇表。

3 - 基于子词的分词是现代LLM实际使用的方法。GPT、Gemini、Claude都依赖于此。“Hello world”变成类似["Hell", "o", "world"]的东西。它在效率和灵活性之间取得平衡，通过将罕见的单词分解为已知的子词片段来处理罕见的单词。

最后一步是标记ID。这些子词被映射到数字，如[15496, 345, 995]。每个标记ID对应模型内部的一个嵌入向量。这就是神经网络实际处理的内容。

请注意，中文版本是由 AI 辅助翻译的，因此可能存在细微错误。

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立，他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务，我们帮助企业提升水平，走向全球舞台。我们的承诺：更快。更好。更可靠。在大多数情况下：也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案，还是想向我们发送招标要求（RFPs），都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。