Bagaimana Model Bahasa Besar Bekerja?

Diagram di bawah ini menggambarkan arsitektur inti dari LLM.

Langkah 1: Tokenisasi LLM memecah teks menjadi unit yang dapat dikelola yang disebut token. Ini menangani kata, subkata, atau karakter menggunakan teknik seperti BPE, WordPiece, atau SentencePiece. Proses ini mengubah bahasa alami menjadi ID token yang dapat diproses oleh model, dengan token khusus yang menandai awal, akhir, atau fungsi khusus dalam teks. Ukuran kosakata dan teknik kompresi token sangat penting untuk pemrosesan yang efisien.

Langkah 2: Embedding Lapisan ini mengubah ID token diskrit menjadi representasi vektor yang kaya dalam ruang semantik berdimensi tinggi. Ini menggabungkan vektor kata dengan pengkodean posisional untuk melestarikan informasi urutan. Matriks embedding menangkap hubungan semantik antara kata, memungkinkan konsep yang serupa ada di dekat satu sama lain dalam ruang vektor.

Langkah 3: Perhatian Inti dari LLM modern, perhatian menentukan bagian mana dari input yang harus difokuskan saat menghasilkan setiap token output. Menggunakan vektor pertanyaan, kunci, dan nilai, ini menghitung skor relevansi antara semua token dalam urutan. Perhatian multi-kepala memproses informasi secara paralel di seluruh ruang representasi sub, menangkap berbagai hubungan secara bersamaan. Perhatian diri memungkinkan model untuk mempertimbangkan konteks keseluruhan saat memproses setiap token.

Langkah 4: Feed-Forward Komponen ini mengubah representasi setiap token secara independen melalui jaringan persepsi multi-lapis (MLP). Ini menerapkan fungsi aktivasi non-linier seperti GELU atau ReLU untuk memperkenalkan kompleksitas yang menangkap pola halus dalam data. Jaringan feed-forward meningkatkan kapasitas model untuk merepresentasikan fungsi dan hubungan yang kompleks. Ini memproses representasi token secara individual, melengkapi pemrosesan kontekstual dari mekanisme perhatian.

Langkah 5: Normalisasi Normalisasi lapisan memstandarisasi input di seluruh fitur, sementara koneksi residu memungkinkan informasi mengalir langsung melalui jaringan. Arsitektur pre-norm dan post-norm menawarkan tradeoff stabilitas-kinerja yang berbeda. Dropout mencegah overfitting dengan menonaktifkan neuron secara acak selama pelatihan, memaksa model untuk mengembangkan representasi yang redundan.

Langkah 6: Prediksi Langkah terakhir mengubah representasi yang diproses menjadi probabilitas atas kosakata. Ini menghasilkan logit (skor mentah) untuk setiap token berikutnya yang mungkin, yang diubah menjadi probabilitas menggunakan fungsi softmax. Sampling suhu mengontrol keacakan dalam generasi, dengan suhu yang lebih rendah menghasilkan output yang lebih deterministik. Strategi dekoding seperti greedy, beam search, atau sampling nucleus menentukan bagaimana model memilih token selama generasi.

Apa yang membuat LLM berbeda dari sistem pemrosesan bahasa tradisional adalah sifat autoregresif mereka. Ini menciptakan proses generasi langkah demi langkah daripada menghasilkan respons keseluruhan sekaligus.

Menurut Anda: Komponen arsitektur mana yang menyebabkan halusinasi dalam LLM?

Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.