Model baru yang luar biasa dari Cina: Kimi k1.5: Meningkatkan Pembelajaran Penguatan dengan LLMs

🚀 Memperkenalkan Kimi k1.5 --- sebuah model multi-modal o1-level

Kinerja CoT pendek Sota, mengungguli GPT-4o dan Claude Sonnet 3,5 pada 📐AIME, 📐MATH-500, 💻 LiveCodeBench dengan margin besar (hingga +550%)

Kinerja CoT panjang sesuai dengan o1 di beberapa modality (👀MathVista, 📐AIME, 💻Codeforces, dll)

Pra-pelatihan model bahasa dengan prediksi token berikutnya telah terbukti efektif untuk meningkatkan komputasi, tetapi terbatas pada jumlah data pelatihan yang tersedia. Meningkatkan pembelajaran penguatan (RL) membuka sumbu baru untuk perbaikan kecerdasan buatan yang berkelanjutan, dengan janji bahwa model bahasa besar (LLM) dapat meningkatkan data pelatihannya dengan belajar untuk menjelajahi dengan penghargaan. Namun, karya terbit sebelumnya tidak menghasilkan hasil yang kompetitif. Dalam hal ini, kami melaporkan praktik pelatihan Kimi k1,5, model LLM multi-modal terbaru kami yang dilatih dengan RL, termasuk teknik pelatihan RL, resep data multi-modal, dan optimasi infrastruktur. Skala konteks panjang dan metode optimasi kebijakan yang ditingkatkan adalah bahan kunci dari pendekatan kami, yang membangun kerangka RL yang sederhana dan efektif tanpa mengandalkan teknik yang lebih kompleks seperti pencarian pohon Monte Carlo, fungsi nilai, dan model penghargaan proses. Yang patut dicatat, sistem kami mencapai kinerja penalaran terbaik di beberapa benchmark dan modality---misalnya, 77,5 pada AIME, 96,2 pada MATH 500, 94-persentil pada Codeforces, 74,9 pada MathVista---sesuai dengan o1 OpenAI. Selain itu, kami menyajikan metode long2short yang efektif yang menggunakan teknik CoT panjang untuk meningkatkan model CoT pendek, menghasilkan hasil penalaran CoT pendek terbaik---misalnya, 60,8 pada AIME, 94,6 pada MATH500, 47,3 pada LiveCodeBench---mengungguli model CoT pendek yang ada seperti GPT-4o dan Claude Sonnet 3,5 dengan margin besar (hingga +550%).

Terdapat beberapa bahan kunci tentang desain dan pelatihan k1,5.

Skala konteks panjang. Kami meningkatkan jendela konteks RL hingga 128k dan mengamati perbaikan kinerja yang berkelanjutan dengan peningkatan panjang konteks. Sebuah ide kunci di balik pendekatan kami adalah menggunakan roll-out parsial untuk meningkatkan efisiensi pelatihan---yaitu, sampling jalur baru dengan menggunakan sebagian besar jalur sebelumnya, menghindari biaya untuk menghasilkan jalur baru dari awal. Pengamatan kami mengidentifikasi panjang konteks sebagai dimensi kunci untuk skala RL yang berkelanjutan dengan LLM.

Optimasi kebijakan yang ditingkatkan. Kami menghasilkan formulasi RL dengan CoT panjang dan menggunakan varian turunan cermin online untuk optimasi kebijakan yang kuat. Algoritma ini lebih lanjut ditingkatkan oleh strategi sampling yang efektif, penalti panjang, dan optimasi resep data.

Kerangka Sederhana. Skala konteks panjang, dikombinasikan dengan metode optimasi kebijakan yang ditingkatkan, membangun kerangka RL yang sederhana untuk pembelajaran dengan LLM. Karena kami dapat meningkatkan panjang konteks, CoT yang dipelajari menunjukkan sifat perencanaan, refleksi, dan koreksi. Peningkatan panjang konteks memiliki efek meningkatkan jumlah langkah pencarian. Sebagai hasilnya, kami menunjukkan bahwa kinerja yang kuat dapat dicapai tanpa mengandalkan teknik yang lebih kompleks seperti pencarian pohon Monte Carlo, fungsi nilai, dan model penghargaan proses.

Multi-modality. Model kami dilatih secara bersamaan pada data teks dan visi, yang memiliki kemampuan untuk melakukan penalaran bersama pada dua modality.

Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.