- 公開日
Meta は Megalodon LLM で変圧器アーキテクチャに挑戦します
- 著者

- 名前
- AbnAsia.org
- @steven_n_t
"Meta と南カリフォルニア大学の研究者によって提案された新しい機械学習 (ML) モデルは、大規模言語モデル (LLM) の時代を引き起こした深層学習アーキテクチャである Transformer の根本的な課題のいくつかを解決することを目的としています。
Megalodon と呼ばれる新しいモデルにより、言語モデルは大量のメモリを必要とせずにコンテキスト ウィンドウを数百万のトークンに拡張できます。実験によると、メガロドンは、大きなテキストの処理において、同じサイズのトランスフォーマー モデルよりも優れたパフォーマンスを発揮します。メガロドンは、トランスフォーマーの後継として提案されている一連の新型モデルの最新作です。
長いコンテキスト ウィンドウ
「コンテキスト ウィンドウ」とは、モデルがいつでも作業できるトークンの数です。コンテキスト ウィンドウが大きくなると、LLM はより長い会話を行い、より長い文書を処理し、コンテキスト内の学習能力を拡張できるようになります。ただし、Transformers のコンテキスト ウィンドウを拡張するには、多大なコストがかかります。
Transformer には「2 次の複雑さ」があります。これは、入力のサイズが 2 倍になるたびに、入力の処理に必要なメモリと計算時間が 4 倍になることを意味します。この二次関係は、入力シーケンス内の各要素を他のすべての要素と比較するトランスフォーマーの自己注意メカニズムによるものです。
Meta の Megalodon は、2022 年に初めて発表された技術である Moving Average Equipment Gated Attendant (MEGA) に基づいて構築されています。MEGA は、モデルの複雑さを大幅に軽減する方法でアテンション メカニズムに変更を加え、LLM が爆発することなくより長い入力を処理できるようにします。メモリとコンピューティングの要件。 MEGA は、モデルがトークン間のローカルおよび長距離の関係に適切な量の重点を置くのに役立つ実証済みの手法である指数移動平均 (EMA) も使用します。これは、より多くの情報がコンテキスト ウィンドウに入力されるときに、モデルの一貫性を維持するのに役立ちます。
メガロドン
Megalodon は、アーキテクチャにいくつかの重要な変更を加えて MEGA をさらに改良し、オリジナルの Transformer モデルで使用されていたフルアテンション メカニズムと同等のパフォーマンスを実現します。 Megalodon は、入力シーケンスを固定サイズのブロックに分割して、モデルの複雑さを 2 次から線形に軽減する「チャンク単位の注意」も使用します。チャンクごとの注意により、モデルのトレーニングを高速化する並列処理の追加レイヤーを追加することもできます。
研究者らは、メガロドンの70億パラメータバージョンを2兆トークンで訓練し、ラマ-2-7B、13B、その他のモデルと比較した。彼らの実験では、メガロドン-7B が「トレーニングの複雑さとダウンストリーム ベンチマーク全体の両方において、LLAMA2-7B のトレーニングに使用された最先端の Transformer の変種よりも大幅に優れている」ことが示されました。一部のタスクでは、メガロドン-7B はラマ-2-13B のパフォーマンスに匹敵します。
4,000 トークンのコンテキスト ウィンドウでは、Megalodon は Llama-2 よりわずかに遅くなりますが、コンテキストの長さが 32,000 トークンに拡張されると、Megalodon はその計算効率により Llama-2 を大幅に上回ります。さらに研究者らは、ロングコンテキストモデリングに関する実験結果は、メガロドンが無制限の長さの配列をモデル化できることを示唆していると主張している。
研究者らは、他のデータモダリティに関する小規模および中規模の実験でも有望な結果を得ており、今後はメガロドンをマルチモーダル設定に適応させることに取り組む予定です。研究者らはメガロドンのコードをMITライセンス付きでGitHub上に公開した。つまり、商用目的に制限なく改変して使用できるということだ。
トランスフォーマーは依然として優勢です
科学者たちは、変圧器に代わる代替アーキテクチャを探してきました。注目すべき例には、現在 AI21 Labs Jamba を使用して商用展開されている Mamba アーキテクチャが含まれます。もう 1 つの潜在的に有望なアーキテクチャは、MIT の研究者によって開発された、あらゆる種類の逐次データを処理するための一般的な深層学習アーキテクチャであるリキッド ニューラル ネットワークです。
ただし、当面は、Transformers が言語モデルの主要なアーキテクチャであり続けます。 Meta は Megalodon などのアーキテクチャを検討している一方で、Transformer モデルの改善に取り組み続けており、オープンソース LLM の最新バージョンである Llama-3 をリリースしたばかりです。
Transformer のライバルにとってのもう 1 つの課題は、必要なハードウェアおよびソフトウェア ツールです。さまざまなアプリケーションやハードウェア デバイスに合わせて Transformer モデルをトレーニング、微調整、カスタマイズするためのライブラリとツールの大規模なエコシステムがあります。同時に、研究者らは、メモリに制約のあるデバイス上で Transformer LLM のパフォーマンスを最適化する低レベルのソフトウェア コードを開発しました。代替手段はまだこうした発展に追いついていません。
一方、他の研究者は、メモリとコンピューティング要件を削減するために、Transformer アーキテクチャを変更することに取り組んでいます。たとえば、Google の研究者による最近の論文 Infini-attention は、メモリや計算の複雑さを増加させることなく、Transformer モデルに無制限のコンテキスト ウィンドウを提供することを目的としています。現在のフロンティア モデルは、数十万のトークンの入力をサポートしています。
しかし、AIの研究は急速に進んでいます。 2017 年にトランスフォーマーの論文が発表されたとき、これほどの影響力を持つとはほとんど誰も考えていませんでした。これらのモデルの 1 つが、それ自体の試合でトランスフォーマーに勝つことが判明するかもしれません。"
日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。 
著者
Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。 私たちの取り組み: より速く。 より良い。 より信頼性が高くなります。 ほとんどの場合、価格も安くなります。
いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書(RFP)をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。

© ABN ASIA