发布于

为什么我们在法学硕士中一直谈论代币而不是文字?

作者

"为什么我们在法学硕士中一直谈论象征而不是文字?为了提高模型性能,将单词分解为子单词(标记)恰好会更有效!

自 GPT-1 以来,大多数现代法学硕士使用的典型策略是字节对编码 (BPE) 策略。这个想法是使用训练数据中经常出现的子词单元作为标记。该算法的工作原理如下:

  • 我们从字符级标记化开始

  • 我们计算配对频率

  • 我们合并最频繁的对

  • 我们重复这个过程,直到字典达到我们想要的大小

字典的大小成为我们可以根据训练数据进行调整的超参数。例如,GPT-1 的字典大小约为 40K 合并,GPT-2、GPT-3 和 ChatGPT 的字典大小约为 50K,Llama 3 128K。"

为什么我们在法学硕士中一直谈论代币而不是文字?

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立,他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务,我们帮助企业提升水平,走向全球舞台。我们的承诺:更快。更好。更可靠。在大多数情况下:也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案,还是想向我们发送招标要求(RFPs),都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。

ABNAsia.org

© ABN ASIA