Diterbitkan pada

Llama-4 tidak mengecewakan!

Penulis

Image

  • Kemudahan penerapan sekarang menjadi fitur OSS yang lebih penting daripada ukuran semata. Ada penekanan bahwa Llama 4 Scout dapat berjalan pada satu H100, berbeda dengan Llama-3-401B, yang kuat tetapi pada akhirnya memiliki adopsi yang lebih rendah. Campuran dari Pakar adalah cara yang baik untuk strategi OSS.
  • Sebuah teknik baru yang disebut MetaP menyetel hiperparameter pelatihan dengan cara yang cerdas. Tidak banyak detail, tetapi saya yakin itu adalah sesuatu yang dekat dengan optimasi Bayesian di Ax, sebuah kerangka kerja open-source dari Meta yang melakukan eksperimen adaptif (seperti pengujian A/B) dengan anggaran percobaan yang terbatas.
  • Strategi pasca-pelatihan adalah untuk mengurangi bobot SFT/DPO dan meningkatkan bobot RL, karena SFT dapat menghambat model dan mengurangi eksplorasi.
  • Titik awal model sebelumnya dapat berfungsi sebagai kritikus untuk dirinya sendiri yang lebih akhir. Misalnya, model menyaring prompt yang mudah untuk iterasi berikutnya, dan terus memperbaiki penyaringan saat pelatihan.
  • Llama 4 Behemoth dilatih dengan FP8, 32K GPU, dan 30T token. Ini harus memangkas 95% data SFT dibandingkan dengan 50% untuk model yang lebih kecil. Secara dasar, data pelatihan terlalu mudah untuk model besar.
  • Trik untuk memungkinkan konteks 10M tampaknya cukup sederhana: (1) menghapus penyematan posisi dari setiap lapisan perhatian; Ini dari sebuah makalah yang memperkenalkan NoPE (No Positional Embedding), nama yang cerdas lol; (2) menyesuaikan perhatian softmax dengan ukuran konteks.
  • Grok sekarang menjadi standar SOTA untuk bias sosial LLM! Kutipan: "Llama 4 berkinerja jauh lebih baik daripada Llama 3 dan setara dengan Grok" pada kemiringan politik dan penolakan untuk menjawab.

Selamat kepada tim atas rilis yang luar biasa lainnya!

Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.

ABNAsia.org

© ABN ASIA