Kilas Balik LLM 2025

Oleh Andrey Kapathy

2025 telah menjadi tahun yang kuat dan penuh peristiwa bagi kemajuan LLM. Berikut adalah daftar "perubahan paradigma" yang secara pribadi patut dicatat dan sedikit mengejutkan—hal-hal yang mengubah lanskap dan menonjol bagi saya secara konseptual.

Reinforcement Learning from Verifiable Rewards (RLVR) Pada awal 2025, tumpukan produksi LLM di semua lab terlihat seperti ini: Pretraining (GPT-2/3 sekitar tahun 2020) Supervised Finetuning (InstructGPT sekitar tahun 2022) dan Reinforcement Learning from Human Feedback (RLHF sekitar tahun 2022) Ini adalah resep yang stabil dan terbukti untuk melatih LLM tingkat produksi selama beberapa waktu. Pada tahun 2025, Reinforcement Learning from Verifiable Rewards (RLVR) muncul sebagai tahapan utama baru yang de facto ditambahkan ke dalam campuran ini. Dengan melatih LLM terhadap imbalan (reward) yang dapat diverifikasi secara otomatis di sejumlah lingkungan (misalnya teka-teki matematika/kode), LLM secara spontan mengembangkan strategi yang terlihat seperti "penalaran" bagi manusia—mereka belajar untuk memecah pemecahan masalah menjadi kalkulasi perantara dan mereka mempelajari sejumlah strategi pemecahan masalah untuk bolak-balik mencari tahu (lihat makalah DeepSeek R1 untuk contohnya). Strategi-strategi ini akan sangat sulit dicapai dalam paradigma sebelumnya karena tidak jelas seperti apa jejak penalaran dan pemulihan yang optimal bagi LLM—ia harus menemukan apa yang berhasil untuknya, melalui optimalisasi terhadap imbalan.

Berbeda dengan tahap SFT dan RLHF, yang keduanya merupakan tahapan yang relatif tipis/singkat (penalaan halus kecil secara komputasi), RLVR melibatkan pelatihan terhadap fungsi imbalan objektif (yang tidak dapat dimanipulasi) yang memungkinkan optimalisasi yang jauh lebih lama. Menjalankan RLVR ternyata menawarkan kapabilitas per dolar yang tinggi, yang melahap komputasi yang awalnya ditujukan untuk pretraining. Oleh karena itu, sebagian besar kemajuan kapabilitas tahun 2025 ditentukan oleh lab LLM yang menghabiskan akumulasi dari tahap baru ini dan secara keseluruhan kita melihat LLM dengan ukuran yang serupa tetapi dengan durasi RL yang jauh lebih lama. Hal unik lainnya dari tahap baru ini, kita mendapatkan kendali baru (dan hukum penskalaan terkait) untuk mengontrol kapabilitas sebagai fungsi dari komputasi waktu pengujian (test time compute) dengan menghasilkan jejak penalaran yang lebih panjang dan meningkatkan "waktu berpikir". OpenAI o1 (akhir 2024) adalah demonstrasi pertama dari model RLVR, tetapi rilis o3 (awal 2025) adalah titik balik yang jelas di mana Anda bisa merasakan perbedaannya secara intuitif.

Hantu vs. Hewan / Kecerdasan Bergerigi 2025 adalah saat di mana saya (dan saya pikir seluruh industri juga) mulai menginternalisasi "bentuk" kecerdasan LLM dalam arti yang lebih intuitif. Kita tidak sedang "mengevolusikan/menumbuhkan hewan", kita sedang "memanggil hantu". Segala sesuatu tentang tumpukan LLM berbeda (arsitektur saraf, data pelatihan, algoritma pelatihan, dan terutama tekanan optimalisasi) jadi tidak mengherankan jika kita mendapatkan entitas yang sangat berbeda dalam ruang kecerdasan, yang tidak tepat untuk dipikirkan melalui lensa hewan. Dari sisi bit pengawasan, jaringan saraf manusia dioptimalkan untuk kelangsungan hidup suku di hutan, tetapi jaringan saraf LLM dioptimalkan untuk meniru teks kemanusiaan, mengumpulkan imbalan dalam teka-teki matematika, dan mendapatkan suara setuju (upvote) dari manusia di LM Arena. Karena domain yang dapat diverifikasi memungkinkan RLVR, LLM mengalami "lonjakan" kapabilitas di sekitar domain ini dan secara keseluruhan menampilkan karakteristik kinerja yang bergerigi secara lucu—mereka pada saat yang sama adalah seorang polimatik jenius dan seorang anak sekolah dasar yang bingung dan memiliki hambatan kognitif, yang hanya berjarak beberapa detik dari tertipu oleh jailbreak untuk mengeksfiltrasi data Anda.

Kecerdasan manusia: biru, kecerdasan AI: merah. Saya suka versi meme ini (maaf saya kehilangan referensi ke postingan aslinya di X) karena menunjukkan bahwa kecerdasan manusia juga bergerigi dengan caranya sendiri yang berbeda. Terkait dengan semua ini adalah sikap apatis umum saya dan hilangnya kepercayaan pada tolok ukur (benchmark) di tahun 2025. Masalah intinya adalah bahwa tolok ukur hampir secara desain merupakan lingkungan yang dapat diverifikasi dan oleh karena itu segera rentan terhadap RLVR dan bentuk-bentuk yang lebih lemah melalui pembuatan data sintetis. Dalam proses "benchmaxxing" yang tipikal, tim di lab LLM pasti membangun lingkungan yang berdekatan dengan kantong-kantong kecil ruang penyematan (embedding space) yang ditempati oleh tolok ukur dan menumbuhkan gerigi untuk menutupinya. Melatih pada set pengujian adalah bentuk seni baru. Seperti apa rasanya menghancurkan semua tolok ukur tetapi tetap tidak mendapatkan AGI? Saya telah menulis lebih banyak tentang topik bagian ini di sini: Hewan vs. Hantu Verifiabilitas Ruang Pikiran

Cursor / Lapisan baru aplikasi LLM Apa yang menurut saya paling menonjol tentang Cursor (selain kenaikannya yang pesat tahun ini) adalah bahwa ia secara meyakinkan mengungkapkan lapisan baru dari "aplikasi LLM"—orang-orang mulai berbicara tentang "Cursor untuk X". Seperti yang saya soroti dalam ceramah Y Combinator saya tahun ini (transkrip dan video), aplikasi LLM seperti Cursor membundel dan mengatur panggilan LLM untuk vertikal tertentu: Mereka melakukan "rekayasa konteks" (context engineering) Mereka mengatur beberapa panggilan LLM di balik layar yang dirangkai menjadi DAG yang semakin kompleks, dengan hati-hati menyeimbangkan pertukaran antara kinerja dan biaya. Mereka menyediakan GUI khusus aplikasi untuk manusia dalam lingkaran (human in the loop) Mereka menawarkan "slider otonomi" Banyak obrolan di tahun 2025 tentang seberapa "tebal" lapisan aplikasi baru ini. Akankah lab LLM menguasai semua aplikasi atau adakah peluang terbuka untuk aplikasi LLM? Secara pribadi saya menduga bahwa lab LLM akan cenderung meluluskan mahasiswa perguruan tinggi yang berkemampuan umum, tetapi aplikasi LLM akan mengorganisir, menyempurnakan, dan benar-benar menghidupkan tim dari mereka menjadi profesional yang siap pakai di vertikal tertentu dengan menyediakan data pribadi, sensor, aktuator, dan loop umpan balik.
Claude Code / AI yang hidup di komputer Anda Claude Code (CC) muncul sebagai demonstrasi meyakinkan pertama tentang seperti apa rupa Agen LLM—sesuatu yang secara berulang merangkai penggunaan alat dan penalaran untuk pemecahan masalah yang berkepanjangan. Selain itu, CC menonjol bagi saya karena ia berjalan di komputer Anda dan dengan lingkungan, data, dan konteks pribadi Anda. Saya pikir OpenAI melakukan kesalahan di sini karena saya pikir mereka memfokuskan upaya codex/agen mereka pada penerapan cloud dalam kontainer yang diatur dari ChatGPT alih-alih localhost. Dan sementara kawanan agen yang berjalan di cloud terasa seperti "permainan akhir AGI", kita hidup di dunia lepas landas yang menengah dan cukup lambat dengan kapabilitas yang bergerigi sehingga lebih masuk akal untuk menjalankan agen di komputer, berdampingan dengan pengembang dan pengaturan khusus mereka. CC melakukan urutan prioritas ini dengan benar dan mengemasnya ke dalam faktor bentuk CLI yang indah, minimalis, dan menarik yang mengubah rupa AI—ini bukan sekadar situs web yang Anda kunjungi seperti Google, ini adalah roh/hantu kecil yang "hidup" di komputer Anda. Ini adalah paradigma interaksi yang baru dan berbeda dengan AI.
Vibe coding 2025 adalah tahun di mana AI melampaui ambang batas kapabilitas yang diperlukan untuk membangun semua jenis program yang mengesankan hanya melalui bahasa Inggris, melupakan bahwa kode itu bahkan ada. Lucunya, saya menciptakan istilah "vibe coding" dalam cuitan pemikiran saat mandi ini, sama sekali tidak menyadari seberapa jauh istilah itu akan berkembang :). Dengan vibe coding, pemrograman tidak secara ketat disediakan untuk profesional yang sangat terlatih, itu adalah sesuatu yang bisa dilakukan siapa saja. Dalam kapasitas ini, ini adalah contoh lain dari apa yang saya tulis dalam "Kekuasaan untuk rakyat: Bagaimana LLM membalikkan skenario pada difusi teknologi", tentang bagaimana (sangat kontras dengan semua teknologi lain sejauh ini) orang biasa mendapat manfaat jauh lebih banyak dari LLM dibandingkan dengan para profesional, korporasi, dan pemerintah. Namun tidak hanya vibe coding memberdayakan orang biasa untuk mendekati pemrograman, ia juga memberdayakan para profesional terlatih untuk menulis lebih banyak perangkat lunak (hasil vibe coding) yang jika tidak, tidak akan pernah ditulis. Di nanochat, saya melakukan vibe coding untuk tokenizer BPE kustom saya sendiri yang sangat efisien di Rust alih-alih harus mengadopsi pustaka yang ada atau mempelajari Rust pada level tersebut. Saya melakukan vibe coding untuk banyak proyek tahun ini sebagai demo aplikasi cepat dari sesuatu yang saya inginkan ada (misalnya lihat menugen, llm-council, reader3, HN time capsule). Dan saya telah melakukan vibe coding untuk seluruh aplikasi efemer hanya untuk menemukan satu bug karena mengapa tidak—kode tiba-tiba menjadi gratis, fana, mudah dibentuk, dan dapat dibuang setelah sekali pakai. Vibe coding akan mengubah lanskap perangkat lunak dan deskripsi pekerjaan.
Nano banana / GUI LLM Google Gemini Nano banana adalah salah satu model paling luar biasa dan mengubah paradigma di tahun 2025. Dalam pandangan dunia saya, LLM adalah paradigma komputasi besar berikutnya yang serupa dengan komputer tahun 1970-an, 80-an, dan seterusnya. Oleh karena itu, kita akan melihat jenis inovasi yang serupa untuk alasan yang secara fundamental serupa. Kita akan melihat padanan dari komputasi personal, mikrokontroler (inti kognitif), atau internet (antar agen), dll. Secara khusus, dalam hal UIUX, "mengobrol" dengan LLM sedikit mirip dengan memberikan perintah ke konsol komputer pada tahun 1980-an. Teks adalah representasi data mentah/yang disukai untuk komputer (dan LLM), tetapi itu bukan format yang disukai untuk orang-orang, terutama pada bagian input. Orang-orang sebenarnya tidak suka membaca teks—itu lambat dan membutuhkan usaha. Sebaliknya, orang-orang suka mengonsumsi informasi secara visual dan spasial dan inilah mengapa GUI diciptakan dalam komputasi tradisional. Dengan cara yang sama, LLM harus berbicara kepada kita dalam format yang kita sukai—dalam gambar, infografis, slide, papan tulis, animasi/video, aplikasi web, dll. Versi awal dan saat ini dari hal ini tentu saja adalah hal-hal seperti emoji dan Markdown, yang merupakan cara untuk "mendandani" dan menata teks secara visual agar lebih mudah dikonsumsi dengan judul, tebal, miring, daftar, tabel, dll. Tetapi siapa yang sebenarnya akan membangun GUI LLM? Dalam pandangan dunia ini, nano banana adalah petunjuk awal tentang seperti apa rupa hal itu nantinya. Dan yang penting, satu aspek yang menonjol darinya adalah bahwa ini bukan hanya tentang pembuatan gambar itu sendiri, ini tentang kapabilitas gabungan yang berasal dari pembuatan teks, pembuatan gambar, dan pengetahuan dunia, semuanya terjalin dalam bobot model.

TLDR. 2025 adalah tahun LLM yang mengasyikkan dan sedikit mengejutkan. LLM muncul sebagai jenis kecerdasan baru, secara bersamaan jauh lebih pintar dari yang saya harapkan dan jauh lebih bodoh dari yang saya harapkan. Bagaimanapun, mereka sangat berguna dan saya tidak berpikir industri telah menyadari bahkan 10% dari potensi mereka bahkan pada kapabilitas saat ini. Sementara itu, ada begitu banyak ide untuk dicoba dan secara konseptual bidang ini terasa sangat terbuka. Dan seperti yang saya sebutkan di podcast Dwarkesh awal tahun ini, saya secara bersamaan (dan di permukaan tampak paradoks) percaya bahwa kita akan melihat kemajuan yang cepat dan berkelanjutan dan bahwa masih banyak pekerjaan yang harus dilakukan. Kencangkan sabuk pengaman.

Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.