เผยแพร่เมื่อ

ลามา-4 ไม่ทำให้ผิดหวัง

ผู้เขียน

Image

  • ความง่ายในการใช้งานตอนนี้เป็นคุณลักษณะที่สำคัญกว่าขนาดของซอฟต์แวร์แบบเปิด (OSS) มีการเน้นย้ำว่า Llama 4 Scout สามารถทำงานบน H100 เพียงตัวเดียว ซึ่งตรงกันข้ามกับ Llama-3-401B ที่มีพลัง แต่สุดท้ายมีการนำไปใช้น้อยกว่า Mixture of Expert เป็นวิธีที่ดีสำหรับกลยุทธ์ OSS
  • เทคนิคใหม่ที่เรียกว่า MetaP ปรับพารามิเตอร์การฝึกอบรมในลักษณะฉลาด ไม่มีรายละเอียดมากนัก แต่ฉันเดาว่ามันใกล้เคียงกับการปรับให้เหมาะสมแบบเบย์ (Bayesian optimization) ใน Ax ซึ่งเป็นเฟรมเวิร์กแบบเปิดที่มาจาก Meta และทำการทดลองแบบปรับตัว (เช่น A/B testing) ด้วยงบประมาณที่จำกัด
  • กลยุทธ์หลังการฝึกอบรมคือการลดความสำคัญของ SFT/DPO และเพิ่มความสำคัญของ RL เนื่องจาก SFT สามารถจำกัดความสามารถของโมเดลและลดการสำรวจ
  • จุดตรวจสอบโมเดลในระยะแรกสามารถทำหน้าที่เป็นนักวิจารณ์สำหรับตัวมันเองในระยะหลัง ตัวอย่างเช่น โมเดลสามารถกรองคำสั่งง่ายๆ สำหรับการวนซ้ำครั้งต่อไป และยังคงดีขึ้นในการกรองเมื่อฝึกอบรม
  • Llama 4 Behemoth ได้รับการฝึกอบรมด้วย FP8, 32K GPUs และ 30T โทเค็น ต้องตัด SFT ข้อมูลออกไป 95% เมื่อเทียบกับ 50% สำหรับโมเดลที่เล็กกว่า โดยพื้นฐานแล้วข้อมูลการฝึกอบรมง่ายเกินไปสำหรับโมเดลขนาดใหญ่
  • เทคนิคที่ช่วยให้สามารถใช้ได้ 10M คอนเท็กซ์ ดูเหมือนจะง่ายมาก: (1) ลบการฝังตัวตำแหน่ง (positional embedding) ออกจากชั้นการให้ความสนใจทุกๆ ชั้น มาจากบทความที่แนะนำ NoPE (No Positional Embedding) ชื่อที่ฉลาดมาก (2) ปรับสมการ softmax ตามขนาดของคอนเท็กซ์
  • Grok ตอนนี้เป็นมาตรฐาน SOTA สำหรับ LLM ความเอนเอียงทางสังคม! อ้างถึง: "Llama 4 ทำได้ดีกว่า Llama 3 และเทียบเท่ากับ Grok" ในด้านความโน้มเอียงทางการเมืองและการปฏิเสธที่จะตอบ

ขอแสดงความยินดีกับทีมงานสำหรับการเปิดตัวที่ยอดเยี่ยมอีกครั้ง!

โปรดทราบว่าเวอร์ชันภาษาไทยได้รับการช่วยเหลือจาก AI ดังนั้นอาจมีข้อผิดพลาดเล็กน้อย

ผู้เขียน

Ai Base Network (ABN), ABN ASIA ถูกก่อตั้งขึ้นโดยคนที่มีรากฐานลึกในวงการวิชาการ มีประสบการณ์การทำงานในสหรัฐอเมริกา ดัตช์ ฮังการี ญี่ปุ่น เกาหลีใต้ สิงคโปร์ และเวียดนาม ABN Asia เป็นที่เราพบกันของวิทยาลัยและเทคโนโลยี ด้วยโซลูชันขั้นสูงและบริการพัฒนาซอฟต์แวร์ที่มีความสามารถ เราช่วยธุรกิจเติบโตและเข้าสู่ฉากโลก ความมุ่งมั่นของเรา: ด่วนขึ้น ดีขึ้น น่าเชื่อถือมากขึ้น ในกรณีส่วนมาก: ราคาถูกด้วย

หากคุณต้องการบริการ IT การให้คำปรึกษาดิจิทัล โซลูชันซอฟต์แวร์ใช้ได้หรือหากคุณต้องการส่งคำขอข้อเสนอ (RFPs) อย่าลังเลที่จะติดต่อเรา คุณสามารถติดต่อเราได้ที่ [email protected] เราพร้อมช่วยเหลือคุณด้านทุกความต้องกรทางเทคโนโลยีของคุณทุกเมื่อ

ABNAsia.org

© ABN ASIA