Llama 3 の良さ

"Llama 3 のリリースは、技術/研究の詳細に関しては非常にまばらでした。よくある質問に答えるために、リリースブログ投稿から隠された詳細を抽出してみました。 👀

ラマ 3 がラマ 2 よりも優れているのはなぜですか?

8,192 トークンのシーケンスで 2T トークンから 15T まで 7 倍にスケールアップされました。

ヒューリスティックフィルター、NSFW フィルター、セマンティック重複排除 (👀) アプローチ、データ品質を予測するためのテキスト分類子などの新しいフィルター処理により、データ品質が向上しました。

Llama 2 を使用して合成トレーニングデータを生成し、テキスト品質の分類子をトレーニングしました。
さまざまなソースから最適なデータの組み合わせを見つけるための広範な実験

Llama 3 にはどのような変更が加えられましたか?

アテンションマスクを使用して、セルフアテンションが文書を横切らないようにしました。これは Llama2 では行われませんでした。 (または OpenAI GPT-3)
入力シーケンスの長さを 4096 から 8192 に増加
128,000 の語彙を備えた新しい Tokenizer により、同じテキストを生成するのに必要なトークンが Llama 2 と比較して 15% 削減されます。また、継続的な関連バージョンまたは将来のバージョンの多言語対応も向上します。 (7B が 8B → より大きな埋め込み層になったのはそのためです)
すべてのモデルサイズでグループ化クエリアテンション (GQA) を使用します。

ラマ 3 インストラクターはどのように訓練されましたか?その他:

教師あり微調整 (SFT)、拒否サンプリング (RS)、近接ポリシー最適化 (PPO)、および直接ポリシー最適化 (DPO) の組み合わせを使用

好みのランキングに関するトレーニングにより、モデルの推論で正しい答えを得る能力が向上します。

微調整データには、公開データセットだけでなく、人間が注釈を付けた 1,000 万を超えるサンプルが含まれています。報酬モデルと指示モデルの間での配分が不明瞭
高品質のプロンプトと好みのランキング (優れた報酬モデル) が鍵となります
私の推測: 1️⃣ SFT → 2️⃣ 拒否サンプリング → ( 3️⃣ DPO → 4️⃣ PPO) 3️⃣ & 4️⃣ が繰り返されます。
私の推測: Llama 3 Instruct があれほど優れたものになるには、優れた報酬モデルが鍵でした。

その他:

事前トレーニングデータセットの 5% は、英語以外の 30 言語のコードデータです。
15T トークン後でも、モデルのパフォーマンスは対数線形に向上しました 🤯
人間による評価は、12 の異なるトピックで 1,800 人の昇進者に対して実行されました

近い将来、Meta が論文と報酬モデルをリリースすることを期待しましょう。🤞🏻"

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。 Llama 3 の良さ

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。私たちの取り組み: より速く。より良い。より信頼性が高くなります。ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書（RFP）をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。