Transformer 可用于许多学习任务，唯一的区别来自我们准备数据的方式

"Transformer 可用于许多学习任务，唯一的区别来自我们准备数据的方式、我们选择的建模头以及我们用来优化模型的损失函数。

通过因果语言模型，模型通过专注于预测序列中的下一个单词来学习语言统计数据。这是当今执行语言建模的更常见方法，也是自 GPT-1 以来一直采用的方法。通过将掩模应用于注意层内计算的注意矩阵来确保因果关系。为了避免关注序列中后面的单词，我们只需将这些单词的注意力设置为 0。为了训练这个模型，我们只需要通过删除第一个单词来创建标签来移动输入。

对于文本分类，我们希望将输入文本数据与某个类别相关联。例如，在情感分析的背景下，我们可能希望将输入句子分为以下三类：[正面]、[负面]和[中性]。在文本分类的背景下，我们只需要一个预测向量，典型的策略通常是选择一个隐藏状态并将其投影到预测空间中。这是有效的，因为尽管隐藏状态与输入标记一样多，但在经过多个转换器块之后，它们都代表了整个句子的纠缠表示。为了训练该模型，我们只需使用交叉熵等损失函数将预测向量与分类标签进行比较。

令牌分类学习任务通常用于命名实体识别（NER）等应用。我们想要对输入句子中的每个标记进行分类。例如，我们可能希望将每个单词与其语法类别相关联：[名词]、[动词] 和 [形容词]。对于序列中的每个输入，我们需要一个预测向量，其大小与我们想要预测的类别数量相同。在训练时，我们使用交叉熵损失函数将所有标记的预测矩阵与其标签中的类别进行比较，并更新模型权重。"

Transformer 可用于许多学习任务，唯一的区别来自我们准备数据的方式

作者

Ai Base Network (ABN), ABN ASIA由具有深厚学术背景的人员创立，他们在美国、荷兰、匈牙利、日本、韩国、新加坡和越南等国家有工作经验。ABN Asia是学术界和技术相遇的地方。凭借我们领先的解决方案和优秀的软件开发服务，我们帮助企业提升水平，走向全球舞台。我们的承诺：更快。更好。更可靠。在大多数情况下：也更便宜。

无论您需要IT服务、数字咨询、现成软件解决方案，还是想向我们发送招标要求（RFPs），都请随时与我们联系。您可以通过[email protected]与我们联系。我们随时准备为您提供所有技术需求的帮助。