- 公開日
オープンソース モデルで大きなコンテキスト ウィンドウが必要な場合、LLama 2 または 3 がおそらく最良の選択肢の 1 つであることをご存知ですか?
- 著者

- 名前
- AbnAsia.org
- @steven_n_t
"オープンソース モデルで大きなコンテキスト ウィンドウが必要な場合、LLama 2 または 3 がおそらく最良の選択肢の 1 つであることをご存知ですか?実際、RoPE 位置埋め込みを使用するモデルはどれも良い選択肢です。
8192 トークン、つまり約 6000 ワードになります。悪くはありませんが、可能なアプリケーションが制限されます。一般的な Transformer アーキテクチャは、テキスト入力をエンコードするための埋め込み、複数の Transformer ブロック、および LLM が使用される学習タスクに固有の予測ヘッドで構成されます。テキストをエンコードするには、トークン語彙のサイズを持つテキスト埋め込み行列 T と、入力シーケンス内のトークンの位置をエンコードする位置埋め込み P を使用します。その位置埋め込みサイズがコンテキスト サイズを定義します。その埋め込みは学習することも、位置インデックスの単純な sin 関数にすることもできます。通常、同じ単語が位置 i と j で異なる方法でエンコードされるように、これらは T + P に加算されます。
LLama の優れた点は、一般的な sin 関数エンコーディングではなく、Rotary Positional Embeddings (RoPE) を使用していることです。各アテンション層はその埋め込みを使用して変更され、入力トークン間の計算されたアテンションがそれらのトークン間の距離のみに依存することが保証されます。トークン T1 が位置 i にあり、トークン T2 が位置 j にある場合、アテンション A(T1, T2) = f(j - i) は j - i の関数です。注意は、特定のトークンの位置ではなく、それらの相対的な位置に依存します。
コンテキスト ウィンドウを拡張するためにメタで使用される手法は、非整数の位置で補間することです。基本的に、元のウィンドウ サイズが L の場合、整数の位置を再スケールすることで、それを L' (L' > L) まで拡張できます。
i' = i * L / L'
たとえば、16,384 トークン (LLama 2 のウィンドウ サイズの 4 倍) のテキスト入力を LLama 2 に入力したい場合、すべての整数の位置を 4 で割るだけです: i' = i / 4。 GitHub で入手可能な LLama 2 の実装 (今日の model.py https://lnkd.in/exqcTkDD の 101 行目) を見ると、次のコード行を置き換えるだけで済むことは明らかです。
t = torch.arange(end, device=freqs.device) による t = torch.arange(end, device=freqs.device) / 4
それはなんと簡単なことなのでしょうか?モデルはその位置埋め込み用にトレーニングされていないため、モデルを少し微調整して、新しいコンテキスト ウィンドウと位置埋め込みに適応させる必要があります。 LLama 2 はプライベート データの微調整に使用される可能性が高いと考えられますが、それは、コンテキスト ウィンドウを微調整する際にニーズに合わせて動的に適応できるというおまけです。
この方法は https://lnkd.in/dCYuwdHz で確認できます。彼らは、パフォーマンスを同じレベルに保ちながら、LLama のコンテキスト ウィンドウを 16 倍に拡張することができました。"
日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。
著者
Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。 私たちの取り組み: より速く。 より良い。 より信頼性が高くなります。 ほとんどの場合、価格も安くなります。
いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書(RFP)をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。

© ABN ASIA