- 公開日
中国からの新しいモデル:キミ K1.5:LLMを使用した強化学習の拡大
- 著者

- 名前
- AbnAsia.org
- @steven_n_t
🚀 Kimi k1.5を紹介します --- o1レベルのマルチモーダルモデルです

SotaのショートCoTパフォーマンスは、📐AIME、📐MATH-500、💻LiveCodeBenchでGPT-4oとClaude Sonnet 3.5を大幅に上回る(最大+550%)
ロングCoTパフォーマンスは、複数のモダリティ(👀MathVista、📐AIME、💻Codeforcesなど)でo1と一致する
言語モデルプレトレーニングにおける次のトークン予測は、コンピュートのスケーリングには効果的ですが、利用可能なトレーニングデータの量に制限されます。強化学習(RL)のスケーリングにより、人工知能の継続的な改善のための新しい軸が解放され、大規模言語モデル(LLM)が報酬で探索を学ぶことでトレーニングデータをスケーリングできるという約束がなされます。ただし、以前に公開された研究は競合する結果を生み出していません。このことから、私たちは、最新のマルチモーダルLLMであるKimi k1.5のトレーニング実践について報告します。包括的なRLトレーニング技術、マルチモーダルデータレシピ、インフラストラクチャの最適化を含みます。ロングコンテキストスケーリングと改良されたポリシーオプティマイゼーション方法は、私たちのアプローチの重要な要素であり、モンテカルロ木探索、価値関数、プロセス報酬モデルなどの複雑な技術に依存せずに、シンプルで効果的なRLフレームワークを確立します。注目すべきは、私たちのシステムが複数のベンチマークとモダリティで最先端の推論パフォーマンスを達成していることです。例えば、AIMEでは77.5、MATH 500では96.2、Codeforcesでは94パーセントile、MathVistaでは74.9で、OpenAIのo1と一致しています。さらに、私たちは、ロングCoT技術を使用してショートCoTモデルを改善する有効なロング2ショート方法を提示し、最先端のショートCoT推論結果を達成しています。例えば、AIMEでは60.8、MATH500では94.6、LiveCodeBenchでは47.3で、GPT-4oやClaude Sonnet 3.5などの既存のショートCoTモデルを大幅に上回っています(最大+550%)。
Kimi k1.5の設計とトレーニングにはいくつかの重要な要素があります。
ロングコンテキストスケーリング。私たちは、RLのコンテキストウィンドウを128kにスケールし、コンテキストの長さが増加するにつれてパフォーマンスが継続的に改善されることを観察しました。私たちのアプローチの重要なアイデアは、トレーニング効率を向上させるために部分的なロールアウトを使用することです。つまり、新しいトラジェクトリをサンプリングするために、以前のトラジェクトリの大部分を再利用し、新しいトラジェクトリをスクラッチから再生成するコストを回避します。私たちの観察は、コンテキストの長さがLLMとRLの継続的なスケーリングの重要な次元であることを示しています。
改良されたポリシーオプティマイゼーション。私たちは、ロングCoTとRLの公式化を導出し、堅牢なポリシーオプティマイゼーションのためにオンラインミラーデサントのバリアントを使用します。このアルゴリズムは、さらに私たちの有効なサンプリング戦略、長さペナルティ、およびデータレシピの最適化によって改善されます。
シンプルなフレームワーク。ロングコンテキストスケーリングと改良されたポリシーオプティマイゼーション方法の組み合わせにより、LLMを使用した学習のためのシンプルなRLフレームワークが確立されます。コンテキストの長さをスケールできるため、学習されたCoTは計画、反省、修正の特性を示します。コンテキストの長さの増加は、探索ステップの数を増やす効果があります。したがって、私たちは、モンテカルロ木探索、価値関数、プロセス報酬モデルなどの複雑な技術に依存せずに、強力なパフォーマンスが達成できることを示しています。
マルチモダリティ。私たちのモデルは、テキストとビジョンデータの両方で共同トレーニングされており、2つのモダリティの両方で推論する能力を持っています。
日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。
著者
Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。 私ちの取り組み: より速く。 より良い。 より信頼性が高くなります。 ほとんどの場合、価格も安くなります。
いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書(RFP)をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。

© ABN ASIA
