- 发布于
LLMs 如何看待世界
- 作者

- 姓名
- AbnAsia.org
- @steven_n_t

当你在ChatGPT或Claude中输入“Hello world”时,模型并不是像你现在阅读这篇文章一样处理这些字母和空格。它通过大多数人从未思考过的过程将所有内容转换为数字。
首先是预处理。文本被标准化。Unicode字符、间距怪癖和特殊符号都被清理和标准化。“Hello world”变成模型可以实际处理的统一格式。
然后是分词。这是事情变得有趣的地方。模型将文本分解为标记,有不同的方法。
1 - 基于字符的分词将所有内容分解为单个字符。“Hello world”变成["H", "e", "l", "l", "o", " ", "w", "o", "r", "l", "d"]。简单但效率低下。
2 - 基于单词的分词在整个单词上进行分割。["Hello", "world"]。更干净,但难以处理罕见的单词,并且会创建大量的词汇表。
3 - 基于子词的分词是现代LLM实际使用的方法。GPT、Gemini、Claude都依赖于此。“Hello world”变成类似["Hell", "o", "world"]的东西。它在效率和灵活性之间取得平衡,通过将罕见的单词分解为已知的子词片段来处理罕见的单词。
最后一步是标记ID。这些子词被映射到数字,如[15496, 345, 995]。每个标记ID对应模型内部的一个嵌入向量。这就是神经网络实际处理的内容。
请注意,中文版本是由 AI 辅助翻译的,因此可能存在细微错误。
作者
Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立,他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务,我们帮助企业提升水平,走向全球舞台。我们的承诺:更快。更好。更可靠。在大多数情况下:也更便宜。
无论您需要IT服务、数字咨询、现成软件解决方案,还是想向我们发送招标要求(RFPs),都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。

© ABN ASIA