公開日

なぜ言葉ではなく LLM のトークンについて話し続けるのでしょうか?

著者

"なぜ私たちは言葉ではなく LLM の「トークン」について話し続けるのでしょうか?モデルのパフォーマンスを向上させるには、単語をサブ単語 (トークン) に分割する方がはるかに効率的です。

GPT-1 以降、ほとんどの最新の LLM で使用されている典型的な戦略は、バイト ペア エンコーディング (BPE) 戦略です。このアイデアは、トレーニング データに頻繁に現れるサブワード単位をトークンとして使用することです。アルゴリズムは次のように機能します。

  • キャラクターレベルのトークン化から始めます

  • ペアの頻度を数えます

  • 最も頻繁に使用されるペアをマージします

  • 辞書が希望する大きさになるまでこのプロセスを繰り返します。

辞書のサイズは、トレーニング データに基づいて調整できるハイパーパラメーターになります。たとえば、GPT-1 の辞書サイズはマージ約 40K、GPT-2、GPT-3、および ChatGPT の辞書サイズは約 50K、Llama 3 の辞書サイズは 128K です。"

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。 なぜ言葉ではなく LLM のトークンについて話し続けるのでしょうか?

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。 私たちの取り組み: より速く。 より良い。 より信頼性が高くなります。 ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書(RFP)をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。

ABNAsia.org

© ABN ASIA