人間は、自然が今までに訓練してきた中で最も長く続いているモデルである。

そして、トレーニングはまだ進行中です。

人間は、自然がこれまでに訓練してきた最も長期的なモデルであり — そしてその訓練はまだ進行中である。

AIにおける一つの重要な概念は、「価値関数（value function）」である。これは、現代のAIシステムが大きく依存しているメカニズムであり、システムが良い結果に向かって動いているかどうかを、最終的な結果がわかる前に推定する。遠い「報酬」を待つのではなく、価値関数は密なフィードバックを提供し、モデルをステップごとに導く。これにより、学習が劇的に加速する：システムは長いシーケンスを盲目的にさまよっていない。常にその軌跡の方向を評価している。システムが有望な価値関数を見つけるたびに、それを記録し、ある程度AIの脳にハードコードする。最近のポッドキャストでは、イリヤ・スツケーバー（Ilya Sutskever）について聞くことができる。スツケーバーは、イスラエル・カナダのコンピューターサイエンティストであり、OpenAIの共同創設者であり、サム・アルトマン（Sam Altman）を一時的にOpenAIから除外した決定を行った取締役の一人である。

疑問が生じる：今日の最先端モデルを訓練するには、数百万のGPUと大量のデータが必要である。那么、我々人間は、どのようにしてAGIの野心を持って、GPUやデータセットを一切使わずに、AIの役割モデルとなったのか？

私が気づいたのは、人間の価値関数は、進化が何百万年にもわたって磨き上げてきたものであり、生存本能、社会的報酬、恐怖システム、好奇心のループ、問題解決の満足感など、生物学的に組み込まれた報酬メカニズムである。これらは抽象的なものではなく、脳が有望な道筋上にあるかどうかを判断するのに役立つ。各世代は、歴史的に生存と繁殖の可能性を高めた行動に基づいて、わずかに改善された報酬形成システムを継承する。確立された、機能する価値関数は、DNAにハードコードされ、我々は事前に設定された、ハードコードされた、機能する価値関数で生まれる。そこから「訓練」を続けるのである。何とも不思議である。

これが、人間が知能を獲得するために、巨大なGPUや数十億トークンのデータセットを必要としない理由である。私たちの学習プロセスは、極めて強力な、進化によって構築された価値関数によってサポートされており、数百万年にもわたる試行錯誤を生物学的な先入観に圧縮している。我々は、探索、協力、慎重さ、創造性、忍耐力が何故重要であるかを理解する前に、調整された報酬勾配 — それらを導く推進力 — で生まれる。進化が、長く、高価な最適化を行った。文化と個人の経験は、チェックポイントを微調整するのみである。

この意味で、人間の知能は「生物学的ハードウェア」のみではない。歴史上最も長い訓練ループの産物であり、それは私たちが考え方を形作るだけでなく、気にすることを形作る。私たちの価値関数は、私たちのコンパスである。そのコンパスが、遅く、低計算量の生物学的モデルが、生データとエネルギーを大量に消費するマシンを上回ることができる理由である。

人間は、自然がこれまでに訓練してきた最も長期的なモデルであり — そしてその訓練はまだ進行中である。

スティーブン・グエン著

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。私ちの取り組み: より速く。より良い。より信頼性が高くなります。ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書（RFP）をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。