Transformers は多くの学習タスクに使用できますが、唯一の違いはデータの準備方法にあります。

"トランスフォーマーは多くの学習タスクに使用できますが、唯一の違いは、データの準備方法、選択したモデリングヘッド、モデルの最適化に使用する損失関数から生じます。

因果言語モデリングを使用すると、モデルはシーケンス内の次の単語の予測に焦点を当てて言語統計を学習します。これは、現在では言語モデリングを実行するためのより一般的な方法であり、GPT-1 以来採用されているアプローチです。因果関係は、アテンションレイヤー内で計算されたアテンションマトリックスにマスクを適用することによって保証されます。シーケンスの後の単語に注意が払われないようにするために、それらの単語の注意を 0 に設定します。このモデルをトレーニングするには、最初の単語を削除して入力をシフトしてラベルを作成するだけです。

テキスト分類では、入力テキストデータを何らかのカテゴリに関連付けることが必要です。たとえば、センチメント分析のコンテキストでは、入力文を [ポジティブ]、[ネガティブ]、[中立] の 3 つのカテゴリに分類することができます。テキスト分類のコンテキストでは、必要な予測ベクトルは 1 つだけであり、一般的な戦略は通常、隠れ状態の 1 つを選択し、それを予測空間に投影することです。これが機能するのは、入力トークンと同じ数の隠れ状態が存在するにもかかわらず、複数の変換ブロックを通過した後、それらはすべて文全体のもつれた表現を表すためです。そのモデルをトレーニングするには、クロスエントロピーなどの損失関数を使用して、予測ベクトルをカテゴリカルラベルと比較するだけです。

トークン分類学習タスクは、Named Entity Recognition (NER) などのアプリケーションによく使用されます。入力文内の各トークンを分類したいと考えています。たとえば、各単語を文法カテゴリ [名詞]、[動詞]、[形容詞] に関連付けることができます。シーケンス内の入力ごとに、予測したいカテゴリの数と同じサイズの予測ベクトルが必要です。トレーニング時に、クロスエントロピー損失関数を使用して、すべてのトークンの予測行列をラベル内のカテゴリと比較し、モデルの重みを更新します。"

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。 Transformers は多くの学習タスクに使用できますが、唯一の違いはデータの準備方法にあります。

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。私たちの取り組み: より速く。より良い。より信頼性が高くなります。ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書（RFP）をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。