2025年 LLMの振り返り

アンドレイ・カーパシー著

2025年は、LLM（大規模言語モデル）において力強く、出来事の多い進歩の年となりました。以下は、個人的に注目に値し、かつ少し驚かされた「パラダイムの変化」のリストです。これらは状況を一変させ、概念的に際立っていたと感じるものです。

検証可能な報酬からの強化学習（RLVR） 2025年の初め、すべての研究所におけるLLMのプロダクション・スタックはおよそ次のようなものでした：事前学習（2020年頃のGPT-2/3）教師あり微調整（2022年頃のInstructGPT）人間のフィードバックによる強化学習（2022年頃のRLHF）これがしばらくの間、プロダクション・グレードのLLMを訓練するための安定した、実証済みのレシピでした。2025年、この組み合わせに加わる事実上の新しい主要ステージとして「検証可能な報酬からの強化学習（RLVR）」が登場しました。多くの環境（数学やコードのパズルなど）において、自動的に検証可能な報酬に対してLLMを訓練することで、LLMは人間には「推論」のように見える戦略を自発的に発達させます。彼らは問題解決を中間的な計算に分解することを学び、試行錯誤しながら物事を解決するための多くの戦略を習得します（例としてDeepSeek R1の論文を参照）。これらの戦略は、以前のパラダイムでは達成が非常に困難でした。なぜなら、LLMにとって最適な推論の軌跡や回復策がどのようなものかが明確ではないからです。LLMは報酬に対する最適化を通じて、自分にとって何が機能するかを見つけ出さなければなりません。計算量的にマイナーな微調整であるSFTやRLHFのステージとは異なり、RLVRは客観的な（不正不可能な）報酬関数に対する訓練を伴うため、より長い最適化が可能です。RLVRの実行は「能力対コスト（capability/$）」が非常に高いことが判明し、もともと事前学習に充てられる予定だった計算資源を飲み込んでしまいました。そのため、2025年の能力向上プロセスの大部分は、LLM研究所がこの新しいステージの「オーバーハング（未開拓の可能性）」を消化することによって定義されました。全体として、モデルのサイズは同程度でありながら、RL（強化学習）の実行時間が大幅に長くなったのが特徴です。また、この新しいステージに特有のものとして、推論の軌跡を長く生成し「思考時間」を増やすことで、テスト時の計算量の関数として能力を制御するための、全く新しいノブ（およびそれに関連するスケーリング則）を手に入れました。OpenAI o1（2024年末）はRLVRモデルの最初のデモンストレーションでしたが、o3のリリース（2025年初頭）は、その違いを直感的に感じることができる明らかな転換点となりました。
幽霊 vs 動物 / ギザギザの知能 2025年は、私（そしておそらく業界の他の人々も）がLLMの知能の「形」をより直感的な意味で内面化し始めた年です。私たちは「動物を成長させている」のではなく、「幽霊を召喚している」のです。LLMスタックのすべて（ニューラルアーキテクチャ、訓練データ、学習アルゴリズム、そして特に最適化の圧力）が異なっているため、知能の空間において非常に異なる実体が出現しているのは驚くべきことではありません。それらを動物のレンズを通して考えるのは不適切です。教師ありデータのビット数で見れば、人間のニューラルネットワークはジャングルでの部族の生存のために最適化されていますが、LLMのニューラルネットワークは人類のテキストを模倣し、数学パズルで報酬を集め、LM Arenaで人間からアップボート（高評価）を得るために最適化されています。検証可能なドメインがRLVRを可能にするにつれ、LLMの能力はそれらのドメインの近傍で「スパイク（急上昇）」し、全体として面白いくらいに「ギザギザの（jagged）」パフォーマンス特性を示します。彼らは天才的な博学であると同時に、混乱し認知能力に課題のある小学生でもあり、数秒後にはジェイルブレイク（脱獄）に騙されてデータを流出させてしまうかもしれない存在なのです。「人間の知能：青、AIの知能：赤」。私はこのバージョンのミーム（Xでの元の投稿への参照を失念してしまい申し訳ありません）が、人間の知能もまた別の意味でギザギザであることを指摘している点が気に入っています。これらすべてに関連して、2025年の私はベンチマークに対して全般的に無関心になり、信頼を失いました。核心的な問題は、ベンチマークがほぼその構造上「検証可能な環境」であり、したがってRLVRや、合成データ生成を介したその弱い形態の影響を即座に受けてしまうことです。典型的な「ベンチマックス（benchmaxxing）」のプロセスにおいて、LLM研究所のチームは必然的にベンチマークが占める埋め込み空間の小さなポケットに隣接する環境を構築し、それらをカバーするように「ギザギザ」を成長させます。「テストセットでの学習」は、今や新しい芸術形式となっています。すべてのベンチマークを粉砕しながらも、依然としてAGI（汎用人工知能）に到達しないとは、一体どのような状況なのでしょうか？このセクションのトピックについては、こちらでさらに詳しく書いています： Animals vs. Ghosts Verifiability The Space of Minds
Cursor / LLMアプリの新しいレイヤー Cursorについて私が最も注目すべきだと感じていること（今年の流星のごとき台頭以外で）は、それが「LLMアプリ」の新しいレイヤーを説得力を持って明らかにしたことです。人々は「XのためのCursor」について語り始めました。今年のY Combinatorでの講演（書き起こしと動画）で強調したように、CursorのようなLLMアプリは、特定の垂直領域（バーティカル）のためにLLMの呼び出しを束ね、オーケストレートします：・彼らは「コンテキスト・エンジニアリング」を行う。・内部で複数のLLM呼び出しを、ますます複雑になるDAG（有向非巡回グラフ）へと繋ぎ合わせ、パフォーマンスとコストのトレードオフを慎重にバランスさせる。・ループ内にいる人間のために、アプリケーション固有のGUIを提供する。・「自律性スライダー」を提供する。 2025年には、この新しいアプリレイヤーがどれほど「厚い」ものになるかについて、多くの議論が交わされました。LLM研究所がすべてのアプリケーションを飲み込むのか、それともLLMアプリにとってのブルーオーシャンが残されているのか。個人的には、LLM研究所は「汎用的に有能な大学生」を卒業させる傾向にあり、LLMアプリはプライベートなデータ、センサー、アクチュエータ、フィードバックループを提供することで、それらのチームを組織し、微調整し、特定の垂直領域における「実戦的なプロフェッショナル」として実際に動かす役割を担うようになると推測しています。
Claude Code / あなたのコンピュータに住むAI Claude Code (CC) は、LLMエージェントがどのようなものであるかを示す最初の説得力のあるデモンストレーションとして登場しました。それは、ループ状にツールの使用と推論を繋ぎ合わせ、拡張された問題解決を行うものです。さらに、CCが注目に値するのは、それがあなたのコンピュータ上で、あなたのプライベートな環境、データ、コンテキストとともに動作する点です。OpenAIはこの点を見誤ったのではないかと私は考えています。彼らはCodexやエージェントの取り組みを、localhostではなく、ChatGPTからオーケストレートされたコンテナ内のクラウド展開に集中させたからです。クラウドで動作するエージェントの群れは「AGIの終着点」のように感じられますが、私たちは能力がギザギザで、離陸が十分に緩やかな中間的な世界に生きています。そのような世界では、開発者や彼ら固有のセットアップと手を取り合って、単にコンピュータ上でエージェントを動かす方が理にかなっています。CCはこの優先順位を正しく捉え、それを美しく、ミニマルで、魅力的なCLI（コマンドラインインターフェース）のフォームファクタにパッケージ化し、AIの姿を変えました。それはGoogleのように単に行くためのウェブサイトではなく、あなたのコンピュータに「住む」小さな精神/幽霊なのです。これはAIとの対話における、新しく明確なパラダイムです。
バイブ・コーディング（Vibe coding） 2025年は、コードの存在すら忘れて、単に英語を通じてあらゆる種類の印象的なプログラムを構築するために必要な能力の閾値をAIが超えた年です。面白いことに、私はこの「シャワーを浴びながらの思考」ツイートで「バイブ・コーディング」という言葉を作りましたが、それがこれほどまで普及するとは全く思っていませんでした :)。バイブ・コーディングによって、プログラミングは高度に訓練された専門家だけのものではなく、誰にでもできるものになります。この能力において、これは私が「Power to the people: How LLMs flip the script on technology diffusion（人々に力を：LLMがいかに技術普及の台本を覆すか）」で書いたことのもう一つの例です。つまり、（これまでの他のすべてのテクノロジーとは対照的に）専門家や企業、政府よりも、一般の人々の方がLLMからより多くの恩恵を受けるという点です。しかし、バイブ・コーディングは一般の人々にプログラミングへの道を開くだけでなく、訓練された専門家が、そうでなければ決して書かれなかったであろう（バイブ・コードされた）ソフトウェアをより多く書くことも可能にします。nanochatにおいて、私は既存のライブラリを採用したり、そのレベルでRustを学んだりする代わりに、Rustで自分専用の高度に効率的なBPEトークナイザーをバイブ・コードしました。今年、私は存在してほしいと思ったもののクイックなアプリデモとして、多くのプロジェクトをバイブ・コードしました（例：menugen, llm-council, reader3, HN time capsule）。そして、たった一つのバグを見つけるためだけに、使い捨てのアプリ全体をバイブ・コードすることもあります。なぜなら、コードは突然、無料になり、一時的で、可鍛性があり、一度使ったら捨てられるものになったからです。バイブ・コーディングはソフトウェアのあり方を作り変え、職務内容を変えるでしょう。
Nano banana / LLM GUI Google Gemini Nano bananaは、2025年で最も驚くべき、パラダイムをシフトさせるモデルの一つです。私の世界観では、LLMは1970年代や80年代のコンピュータと同様の、次の主要なコンピューティング・パラダイムです。したがって、根本的に同様の理由から、同様の種類のイノベーションを目にすることになるでしょう。パーソナル・コンピューティング、マイクロコントローラ（認知コア）、あるいは（エージェントの）インターネットなどの同等物を見ることになるはずです。特にUI/UXの観点では、LLMとの「チャット」は、1980年代にコンピュータ・コンソールにコマンドを入力することに少し似ています。テキストはコンピュータ（およびLLM）にとって生の、好まれるデータ表現ですが、人間にとって、特にインプットにおいては好まれる形式ではありません。人間は実際、テキストを読むことを嫌います。それは遅く、労力を要するからです。代わりに、人々は情報を視覚的かつ空間的に消費することを好みます。だからこそ、伝統的なコンピューティングにおいてGUIが発明されたのです。同様に、LLMも私たちの好む形式、つまり画像、インフォグラフィック、スライド、ホワイトボード、アニメーション/ビデオ、ウェブアプリなどで私たちに語りかけるべきです。これの初期かつ現在のバージョンはもちろん絵文字やMarkdownであり、これらはタイトル、太字、斜体、リスト、表などを用いて、テキストを視覚的に「飾り立て」、消費しやすく配置する方法です。しかし、実際にLLM GUIを構築するのは誰でしょうか？この世界観において、nano bananaはその姿がどのようなものになるかを示す最初のヒントです。そして重要なことに、その注目すべき側面の一つは、それが単なる画像生成そのものではなく、テキスト生成、画像生成、そして世界の知識からくる共同の能力であり、それらすべてがモデルの重みの中で絡み合っているという点です。

要約（TLDR）：2025年は、LLMにとってエキサイティングで、少し驚きのある年でした。LLMは新しい種類の知能として台頭しており、予想よりもはるかに賢いと同時に、予想よりもはるかに愚かでもあります。いずれにせよ、それらは極めて有用であり、業界は現在の能力においてさえ、そのポテンシャルの10%も実現できていないと私は考えています。その一方で、試すべきアイデアは山ほどあり、概念的にこの分野は大きく開かれていると感じます。今年初めのDwarkeshのポッドキャストで述べたように、私は（表面上は逆説的ですが）急速で継続的な進歩を目の当たりにすると同時に、なすべき仕事がまだ山積みであると信じています。シートベルトを締めておいてください。

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。私ちの取り組み: より速く。より良い。より信頼性が高くなります。ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書（RFP）をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。