Xuất bản vào

Điều gì làm cho Llama 3 tốt

Tác giả

"Llama 3 được phát hành nhưng rất ít chi tiết nghiên cứu/kỹ thuật được tiết lộ. Chúng tôi đã cố gắng trích xuất các chi tiết ẩn từ bài đăng trên blog phát hành để trả lời các câu hỏi phổ biến. 👀

Tại sao Llama 3 lại tốt hơn Llama 2?

  • Tăng quy mô lên 7 lần từ 2T Token lên 15T trên chuỗi 8.192 token.

Cải thiện chất lượng dữ liệu với tính năng lọc mới bao gồm bộ lọc heuristic, bộ lọc NSFW, phương pháp loại bỏ trùng lặp ngữ nghĩa (👀) và bộ phân loại văn bản để dự đoán chất lượng dữ liệu.

  • Đã sử dụng Llama 2 để tạo dữ liệu huấn luyện tổng hợp nhằm huấn luyện các bộ phân loại chất lượng văn bản.

  • Các thử nghiệm mở rộng để tìm ra sự kết hợp dữ liệu tốt nhất từ ​​các nguồn khác nhau

Những thay đổi nào đã được thực hiện đối với Llama 3?

  • Sử dụng mặt nạ chú ý để đảm bảo sự chú ý không lẫn giữa các tài liệu. Điều này đã không được thực hiện đối với Llama2. (hoặc OpenAI GPT-3)

  • Tăng độ dài chuỗi đầu vào từ 4096 lên 8192

  • Tokenizer mới với vốn từ vựng 128k, giúp giảm 15% số token cần thiết so với Llama 2 để tạo cùng một văn bản. Nó cũng sẽ cải thiện tính đa ngôn ngữ cho các phiên bản liên quan hoặc trong tương lai. (Đó là lý do tại sao 7B trở thành 8B → lớp nhúng lớn hơn)

  • Tất cả các kích thước mô hình đều sử dụng nhóm truy vấn (GQA)

Llama 3 Instruct được đào tạo như thế nào?

  • Đã sử dụng kết hợp tinh chỉnh có giám sát (SFT), lấy mẫu từ chối (RS), tối ưu hóa chính sách gần nhất (PPO) và tối ưu hóa chính sách trực tiếp (DPO)

Việc đào tạo về xếp hạng ưu tiên cho phép mô hình cải thiện việc đưa ra câu trả lời đúng trong lý luận

  • Dữ liệu tinh chỉnh bao gồm các tập dữ liệu công khai cũng như hơn 10 triệu ví dụ được con người chú thích. Không rõ cách phân phối giữa Mô hình phần thưởng và Mô hình hướng dẫn

  • lời nhắc chất lượng cao và xếp hạng ưu tiên (Mô hình phần thưởng tốt) là chìa khóa

  • Tôi đoán: 1️⃣ SFT → 2️⃣ Lấy mẫu từ chối → ( 3️⃣ DPO → 4️⃣ PPO) trong đó 3️⃣ & 4️⃣ được lặp lại/lặp lại

  • Tôi đoán: Mô hình Phần thưởng tốt là chìa khóa để Llama 3 Instruct trở nên tốt như vậy.

Các yếu tố khác:

  • 5% tập dữ liệu huấn luyện trước là dữ liệu không phải tiếng Anh/mã ở 30 ngôn ngữ.

  • Ngay cả sau 15T mã thông báo, hiệu suất mô hình vẫn được cải thiện tuyến tính 🤯

  • Đánh giá con người được thực hiện với 1.800 quảng cáo ở 12 chủ đề khác nhau

Hãy cùng hy vọng Meta sẽ phát hành một bài báo và các Mô hình Phần thưởng trong thời gian sắp tới.🤞🏻"

Điều gì làm cho Llama 3 tốt

TÁC GIẢ

Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software