- Xuất bản vào
Mô hình mới tuyệt vời từ Trung Quốc: Kimi k1.5: Mở rộng Học Tăng cường với LLMs
- Tác giả
- Tên
- AbnAsia.org
- @steven_n_t
🚀 Giới thiệu Kimi k1.5 --- một mô hình đa phương thức cấp độ o1
Hiệu suất Sota short-CoT, vượt trội hơn GPT-4o và Claude Sonnet 3.5 trên 📐AIME, 📐MATH-500, 💻 LiveCodeBench với một khoảng cách lớn (lên đến +550%).
Hiệu suất Long-CoT tương đương với o1 trên nhiều phương thức khác nhau (👀MathVista, 📐AIME, 💻Codeforces, v.v.)
Việc tiền huấn luyện mô hình ngôn ngữ với dự đoán token tiếp theo đã chứng minh hiệu quả trong việc mở rộng tính toán nhưng bị giới hạn bởi lượng dữ liệu huấn luyện có sẵn. Việc mở rộng học tăng cường (RL) mở ra một trục mới cho sự cải thiện liên tục của trí tuệ nhân tạo, với lời hứa rằng các mô hình ngôn ngữ lớn (LLMs) có thể mở rộng dữ liệu huấn luyện của chúng bằng cách học cách khám phá với phần thưởng. Tuy nhiên, các công trình đã công bố trước đó chưa tạo ra kết quả cạnh tranh. Trước tình hình này, chúng tôi báo cáo về thực hành huấn luyện của Kimi k1.5, LLM đa phương thức mới nhất của chúng tôi được huấn luyện với RL, bao gồm các kỹ thuật huấn luyện RL, công thức dữ liệu đa phương thức và tối ưu hóa hạ tầng. Mở rộng ngữ cảnh dài và cải thiện phương pháp tối ưu hóa chính sách là những thành phần chính trong cách tiếp cận của chúng tôi, thiết lập một khung RL đơn giản, hiệu quả mà không cần dựa vào các kỹ thuật phức tạp hơn như tìm kiếm cây Monte Carlo, hàm giá trị và mô hình phần thưởng quá trình. Đáng chú ý, hệ thống của chúng tôi đạt được hiệu suất lý luận tiên tiến nhất trên nhiều tiêu chuẩn và phương thức—ví dụ, 77.5 trên AIME, 96.2 trên MATH 500, 94-th percentile trên Codeforces, 74.9 trên MathVista—tương đương với o1 của OpenAI. Hơn nữa, chúng tôi trình bày các phương pháp long2short hiệu quả sử dụng kỹ thuật long-CoT để cải thiện mô hình short-CoT, đạt được kết quả lý luận short-CoT tiên tiến nhất—ví dụ, 60.8 trên AIME, 94.6 trên MATH500, 47.3 trên LiveCodeBench—vượt trội hơn các mô hình short-CoT hiện có như GPT-4o và Claude Sonnet 3.5 với một khoảng cách lớn (lên đến +550%).
Có một vài thành phần chính về thiết kế và huấn luyện của k1.5.
Mở rộng ngữ cảnh dài. Chúng tôi mở rộng cửa sổ ngữ cảnh của RL lên 128k và quan sát sự cải thiện liên tục của hiệu suất với độ dài ngữ cảnh tăng lên. Một ý tưởng chính đằng sau cách tiếp cận của chúng tôi là sử dụng các rollout từng phần để cải thiện hiệu quả huấn luyện—tức là, lấy mẫu các quỹ đạo mới bằng cách tái sử dụng một phần lớn các quỹ đạo trước đó, tránh chi phí để tạo lại các quỹ đạo mới từ đầu. Quan sát của chúng tôi xác định độ dài ngữ cảnh là một chiều quan trọng của việc mở rộng liên tục RL với LLMs.
Cải thiện tối ưu hóa chính sách. Chúng tôi đưa ra một công thức của RL với long-CoT và sử dụng một biến thể của descent gương trực tuyến để tối ưu hóa chính sách mạnh mẽ. Thuật toán này được cải thiện thêm bởi chiến lược lấy mẫu hiệu quả của chúng tôi, hình phạt độ dài và tối ưu hóa công thức dữ liệu.
Khung đơn giản. Mở rộng ngữ cảnh dài, kết hợp với các phương pháp tối ưu hóa chính sách cải tiến, thiết lập một khung RL đơn giản để học với LLMs. Vì chúng tôi có thể mở rộng độ dài ngữ cảnh, các CoT đã học thể hiện các thuộc tính của lập kế hoạch, phản ánh và sửa chữa. Độ dài ngữ cảnh tăng lên có tác dụng tăng số bước tìm kiếm. Kết quả là, chúng tôi cho thấy rằng hiệu suất mạnh mẽ có thể đạt được mà không cần dựa vào các kỹ thuật phức tạp hơn như tìm kiếm cây Monte Carlo, hàm giá trị và mô hình phần thưởng quá trình.
Đa phương thức. Mô hình của chúng tôi được huấn luyện đồng thời trên dữ liệu văn bản và hình ảnh, có khả năng lý luận đồng thời trên hai phương thức.
TÁC GIẢ
Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.
Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.
© ABN ASIA