- Diterbitkan pada
Bagaimana LLM Melihat Dunia
- Penulis

- Nama
- AbnAsia.org
- @steven_n_t

Ketika Anda mengetik "Halo dunia" ke ChatGPT atau Claude, model tersebut tidak memproses huruf dan spasi seperti Anda membaca posting ini saat ini. Ini mengubah semuanya menjadi angka melalui proses yang tidak pernah dipikirkan oleh kebanyakan orang.
Pra-pemrosesan datang pertama. Teks dinormalisasi. Karakter Unicode, kekhasan spasi, dan simbol khusus, semuanya dibersihkan dan distandarkan. "Halo dunia" menjadi format yang konsisten yang dapat bekerja dengan model.
Kemudian datang tokenisasi. Inilah tempat hal-hal menjadi menarik. Model membagi teks menjadi token, dan ada berbagai pendekatan.
1 - Tokenisasi berbasis karakter memecah semuanya menjadi karakter individu. "Halo dunia" menjadi ["H", "a", "l", "o", " ", "d", "u", "n", "i", "a"]. Sederhana tetapi tidak efisien.
2 - Pembagian berbasis kata membagi kata-kata utuh. ["Halo", "dunia"]. Lebih bersih tetapi mengalami kesulitan dengan kata-kata langka dan menciptakan kosakata yang sangat besar.
3 - Berbasis subkata adalah apa yang digunakan oleh LLM modern. GPT, Gemini, Claude, semuanya mengandalkan ini. "Halo dunia" menjadi sesuatu seperti ["Hal", "o", "dunia"]. Ini menyeimbangkan efisiensi dengan fleksibilitas, menangani kata-kata langka dengan memecahnya menjadi potongan subkata yang dikenal.
Langkah terakhir adalah ID Token. Subkata tersebut dipetakan ke angka seperti [15496, 345, 995]. Setiap ID token sesuai dengan vektor embedding di dalam model. Itulah yang diproses oleh jaringan saraf.
Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.
Penulis
Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.
Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.

© ABN ASIA