Transformer können für viele Lernaufgaben verwendet werden, der einzige Unterschied liegt in der Art und Weise, wie wir die Daten aufbereiten

"Transformatoren können für viele Lernaufgaben verwendet werden. Der einzige Unterschied besteht in der Art und Weise, wie wir die Daten vorbereiten, in dem Modellierungskopf, den wir auswählen, und in der Verlustfunktion, die wir zur Optimierung des Modells verwenden.

Bei der kausalen Sprachmodellierung lernt das Modell die Sprachstatistik, indem es sich auf die Vorhersage des nächsten Wortes in einer Sequenz konzentriert. Dies ist heutzutage die gängigere Methode zur Sprachmodellierung und wird seit GPT-1 verfolgt. Die Kausalität wird durch die Anwendung einer Maske auf die innerhalb der Aufmerksamkeitsebenen berechneten Aufmerksamkeitsmatrizen sichergestellt. Um zu vermeiden, dass später in der Sequenz auf Wörter geachtet wird, setzen wir die Aufmerksamkeit für diese Wörter einfach auf 0. Um dieses Modell zu trainieren, müssen wir lediglich die Eingaben verschieben, indem wir das erste Wort entfernen, um die Beschriftungen zu erstellen.

Zur Textklassifizierung möchten wir die eingegebenen Textdaten einer Kategorie zuordnen. Beispielsweise möchten wir im Kontext der Stimmungsanalyse den Eingabesatz möglicherweise in die folgenden drei Kategorien einteilen: [POSITIV], [NEGATIV] und [NEUTRAL]. Im Kontext der Textklassifizierung benötigen wir nur einen Vorhersagevektor, und die typische Strategie besteht normalerweise darin, einen der verborgenen Zustände auszuwählen und ihn in den Vorhersageraum zu projizieren. Dies funktioniert, weil es zwar so viele verborgene Zustände wie Eingabetokens gibt, diese nach dem Durchlaufen mehrerer Transformatorblöcke jedoch alle eine verschlungene Darstellung des gesamten Satzes darstellen. Um dieses Modell zu trainieren, müssen wir lediglich die Vorhersagevektoren mit den kategorialen Beschriftungen vergleichen, indem wir eine Verlustfunktion wie Kreuzentropie verwenden.

Die Lernaufgabe zur Token-Klassifizierung wird häufig für Anwendungen wie Named Entity Recognition (NER) verwendet. Wir möchten jedes Token im Eingabesatz kategorisieren. Beispielsweise möchten wir möglicherweise jedes der Wörter seinen grammatikalischen Kategorien zuordnen: [NOUN], [VERB] und [ADJEKTIV]. Für jede Eingabe in der Sequenz benötigen wir einen Vorhersagevektor mit der Größe der Anzahl der Kategorien, die wir vorhersagen möchten. Zur Trainingszeit vergleichen wir diese Vorhersagematrix für alle Token mit ihren Kategorien in den Beschriftungen mit einer Kreuzentropieverlustfunktion und aktualisieren die Modellgewichte."

Bitte beachten Sie, dass die französische Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können. Transformer können für viele Lernaufgaben verwendet werden, der einzige Unterschied liegt in der Art und Weise, wie wir die Daten aufbereiten

AUTOR

Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.

Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.