- Veröffentlicht am
Wie LLMs die Welt sehen
- Autoren

- Name
- AbnAsia.org
- @steven_n_t

Wenn Sie "Hello world" in ChatGPT oder Claude eingeben, verarbeitet das Modell diese Buchstaben und Leerzeichen nicht so, wie Sie diesen Beitrag gerade lesen. Stattdessen werden alle Zeichen in Zahlen umgewandelt, und zwar durch einen Prozess, über den die meisten Menschen nie nachdenken.
Zuerst kommt die Vorverarbeitung. Der Text wird normalisiert. Unicode-Zeichen, Platzierungsfehler und Sonderzeichen werden alle bereinigt und standardisiert. "Hello world" wird in ein konsistentes Format umgewandelt, mit dem das Modell tatsächlich arbeiten kann.
Dann kommt die Tokenisierung. Hier werden die Dinge interessant. Das Modell teilt den Text in Token auf, und es gibt verschiedene Ansätze.
1 - Zeichenbasierte Tokenisierung zerlegt alles in einzelne Zeichen. "Hello world" wird zu ["H", "e", "l", "l", "o", " ", "w", "o", "r", "l", "d"]. Einfach, aber ineffizient.
2 - Wortbasierte Tokenisierung teilt in ganze Wörter auf. ["Hello", "world"]. Sauberer, aber mit seltenen Wörtern hat sie Schwierigkeiten und erzeugt massive Vokabulare.
3 - Subwortbasierte Tokenisierung ist das, was moderne LLMs tatsächlich verwenden. GPT, Gemini, Claude - alle verlassen sich auf diese Methode. "Hello world" wird zu etwas wie ["Hell", "o", "world"]. Sie balanciert Effizienz mit Flexibilität und kann mit seltenen Wörtern umgehen, indem sie diese in bekannte Subwortteile zerlegt.
Der letzte Schritt sind Token-IDs. Diese Subwörter werden auf Zahlen wie [15496, 345, 995] abgebildet. Jede Token-ID entspricht einem Einbettungsvektor im Modell. Das ist es, was das neuronale Netzwerk tatsächlich verarbeitet.
Bitte beachten Sie, dass die deutsche Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können.
AUTOR
Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.
Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.

© ABN ASIA