公開日

LLMは世界をどう見るのか

著者

Image

ChatGPTやClaudeに「Hello world」と入力すると、モデルは現在この投稿を読んでいるように文字やスペースを処理しているのではない。数値への変換という、ほとんどの人が考えることのないプロセスを通じて、すべてを数値に変換しているのである。

最初に前処理が行われる。テキストが正規化される。ユニコード文字、スペースの特性、特殊文字などがすべてクリーンアップされ、標準化される。「Hello world」は、モデルが実際に処理できる一貫した形式になる。

次にトークン化が行われる。これが面白いところである。モデルはテキストをトークンに分割し、さまざまなアプローチがある。

1 - 文字ベースのトークン化は、すべてを個々の文字に分解する。「Hello world」は、["H", "e", "l", "l", "o", " ", "w", "o", "r", "l", "d"]になる。シンプルだが非効率的である。

2 - 単語ベースのトークン化は、単語全体で分割する。["Hello", "world"]となる。クリーンだが、稀な単語に苦労し、巨大な語彙を生み出す。

3 - サブワードベースのトークン化は、現代のLLMが実際に使用しているものである。GPT、Gemini、Claudeなどすべてがこれに頼っている。「Hello world」は、["Hell", "o", "world"]のようなものになる。効率と柔軟性のバランスをとり、稀な単語を既知のサブワードのピースに分割することで処理する。

最終的なステップはトークンIDである。これらのサブワードが[15496, 345, 995]のような数値にマッピングされる。各トークンIDは、モデル内に埋め込みベクトルに対応する。ニューラルネットワークが実際に処理するのはこれである。

日本語版は Ai 支援を使用しているため、小さな間違いが存在する可能性があることをご了承ください。

著者

Ai Base Network (ABN), ABN ASIAは、アカデミアに深く関わり、アメリカ、オランダ、ハンガリー、日本、韓国、シンガポール、ベトナムでの仕事経験を持つ人々によって設立されました。ABN ASIAは、学問とテクノロジーが機会と出会う場所です。最先端のソリューションと優れたソフトウェア開発サービスにより、ビジネスがレベルアップし、グローバルシーンに挑戦できるよう支援しています。 私ちの取り組み: より速く。 より良い。 より信頼性が高くなります。 ほとんどの場合、価格も安くなります。

いつでも、ITサービス、デジタルコンサルティング、既製のソフトウェアソリューション、または提案依頼書(RFP)をお探しの際は、お気軽にお問い合わせください。お問い合わせ先は[email protected]です。お客様のテクノロジーに関するニーズにお応えします。

ABNAsia.org

© ABN ASIA