- Diterbitkan pada
Apa yang Penting dalam Transformers?
- Penulis

- Nama
- AbnAsia.org
- @steven_n_t
Apa yang Penting dalam Transformers? adalah sebuah makalah menarik yang menemukan bahwa sebenarnya Anda dapat menghapus setengah dari lapisan perhatian di LLM seperti Llama tanpa mengurangi kinerja pemodelan secara signifikan.

Konsepnya cukup sederhana. Penulis menghapus lapisan perhatian, lapisan MLP, atau seluruh blok transformer:
Menghapus seluruh blok transformer menyebabkan penurunan kinerja yang signifikan.
Menghapus lapisan MLP juga menyebabkan penurunan kinerja yang signifikan.
Menghapus lapisan perhatian hampir tidak menyebabkan penurunan kinerja!
Pada Llama 2 70B, bahkan jika setengah dari lapisan perhatian dihapus (yang menghasilkan percepatan 48%), hanya terjadi penurunan 2,4% dalam model benchmark. Penulis juga baru-baru ini menambahkan hasil Llama 3 ke dalam makalah, yang menunjukkan hasil yang serupa.
Lapisan perhatian tidak dihapus secara acak, tetapi berdasarkan skor kesamaan berbasis kosinus: Jika input dan output sangat mirip, lapisan tersebut bersifat redundan dan dapat dihapus.
Hasil ini sangat menarik dan berpotensi dikombinasikan dengan berbagai teknik kompresi model (seperti pruning dan kuantisasi) untuk efek yang menggandakan.
Selain itu, lapisan dihapus secara satu langkah (bukan secara iteratif), dan tidak diperlukan pelatihan ulang setelah penghapusan. Namun, pelatihan ulang model setelah penghapusan dapat memulihkan beberapa kinerja yang hilang.
Secara keseluruhan, studi ini sangat sederhana tetapi sangat menarik. Tampaknya ada banyak redundansi komputasi pada arsitektur yang lebih besar.
Satu catatan penting dari studi ini adalah bahwa fokusnya sebagian besar pada benchmark akademik (HellaSwag, MMLU, dll.). Belum jelas bagaimana model tersebut berkinerja pada benchmark yang mengukur kinerja percakapan.
Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.
Penulis
Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.
Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.

© ABN ASIA