Transformer dapat digunakan untuk banyak tugas pembelajaran, dan satu-satunya perbedaan terletak pada cara kita menyiapkan data

"Transformer dapat digunakan untuk banyak tugas pembelajaran, dan satu-satunya perbedaan terletak pada cara kita menyiapkan data, kepala pemodelan yang kita pilih, dan fungsi kerugian yang kita gunakan untuk mengoptimalkan model.

Dengan Pemodelan Bahasa Kausal, model mempelajari statistik bahasa dengan berfokus pada memprediksi kata berikutnya secara berurutan. Ini adalah cara yang lebih umum untuk melakukan pemodelan Bahasa saat ini, dan pendekatan ini telah digunakan sejak GPT-1. Kausalitas dipastikan dengan menerapkan masker pada matriks perhatian yang dihitung dalam lapisan perhatian. Untuk menghindari perhatian pada kata-kata selanjutnya dalam urutan tersebut, kita cukup menetapkan perhatian ke 0 untuk kata-kata tersebut. Untuk melatih model ini, kita hanya perlu menggeser input dengan menghilangkan kata pertama untuk membuat label.

Untuk klasifikasi teks, kami ingin mengaitkan data teks masukan dengan beberapa kategori. Misalnya, dalam konteks analisis sentimen, kita mungkin ingin mengategorikan kalimat masukan ke dalam tiga kategori berikut: [POSITIF], [NEGATIF] dan [NETRAL]. Dalam konteks klasifikasi teks, kita hanya memerlukan satu vektor prediksi, dan strategi umumnya biasanya memilih salah satu status tersembunyi dan memproyeksikannya ke dalam ruang prediksi. Ini berhasil karena, meskipun jumlah status tersembunyi sama banyaknya dengan jumlah token masukan, setelah melewati beberapa blok transformator, semuanya mewakili representasi terjerat dari keseluruhan kalimat. Untuk melatih model tersebut, kita hanya perlu membandingkan vektor prediksi dengan label kategoris menggunakan fungsi kerugian seperti cross-entropy.

Tugas pembelajaran klasifikasi token sering digunakan untuk aplikasi seperti Named Entity Recognition (NER). Kami ingin mengkategorikan setiap token dalam kalimat masukan. Misalnya, kita mungkin ingin mengasosiasikan setiap kata dengan kategori tata bahasanya: [NOUN], [VERB], dan [ADJECTIVE]. Untuk setiap input pada barisan tersebut, kita memerlukan vektor prediksi sebesar jumlah kategori yang ingin kita prediksi. Pada waktu pelatihan, kami membandingkan matriks prediksi untuk semua token dengan kategorinya di label dengan fungsi kerugian lintas entropi dan memperbarui bobot model."

Harap dicatat bahwa versi bahasa Prancis dari AI didukung dan karena itu mungkin terjadi kesalahan kecil. Transformer dapat digunakan untuk banyak tugas pembelajaran, dan satu-satunya perbedaan terletak pada cara kita menyiapkan data

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.