Xuất bản vào

Meta thách thức kiến ​​trúc máy biến áp với Megalodon LLM

Tác giả

"Một mô hình học máy (ML) mới do các nhà nghiên cứu tại Meta và Đại học Nam California đề xuất nhằm giải quyết một số thách thức cơ bản của Transformer, kiến ​​trúc học sâu đã tạo ra thời đại của các mô hình ngôn ngữ lớn (LLM).

Mô hình mới, được gọi là Megalodon, cho phép các mô hình ngôn ngữ mở rộng cửa sổ ngữ cảnh của chúng lên hàng triệu mã thông báo mà không cần lượng bộ nhớ lớn. Thực nghiệm cho thấy Megalodon vượt trội hơn các mẫu Transformer có kích thước tương đương trong việc xử lý văn bản lớn. Megalodon là mẫu mới nhất trong loạt mẫu mới đang được đề xuất làm mẫu kế thừa cho Transformer.

Cửa sổ ngữ cảnh dài

Cửa sổ ngữ cảnh là số lượng mã thông báo mà một mô hình có thể hoạt động bất kỳ lúc nào. Cửa sổ ngữ cảnh lớn hơn cho phép LLM có các cuộc hội thoại dài hơn, xử lý tài liệu dài hơn và mở rộng khả năng học tập trong ngữ cảnh của họ. Tuy nhiên, việc mở rộng cửa sổ ngữ cảnh của Transformers phải trả giá đắt.

Transformer có độ phức tạp bậc hai, nghĩa là mỗi khi bạn tăng gấp đôi kích thước của đầu vào, bộ nhớ và thời gian tính toán cần thiết để xử lý gấp bốn lần đầu vào. Mối quan hệ bậc hai này là do cơ chế tự chú ý trong máy biến áp, cơ chế này so sánh từng phần tử trong chuỗi đầu vào với mọi phần tử khác.

Megalodon của Meta được xây dựng dựa trên Chú ý có cổng được trang bị trung bình di chuyển (MEGA), một kỹ thuật được trình bày lần đầu tiên vào năm 2022. MEGA thực hiện các sửa đổi đối với cơ chế chú ý theo cách làm giảm đáng kể độ phức tạp của mô hình, cho phép LLM xử lý dữ liệu đầu vào dài hơn mà không phát sinh yêu cầu về bộ nhớ và tính toán. MEGA cũng sử dụng đường trung bình động hàm mũ (EMA), một kỹ thuật đã được thử nghiệm và kiểm tra giúp các mô hình tập trung đúng mức vào mối quan hệ cục bộ và khoảng cách xa giữa các token. Điều này có thể giúp các mô hình duy trì sự gắn kết khi có nhiều thông tin hơn được đưa vào cửa sổ ngữ cảnh.

Megalodon

Megalodon cải tiến MEGA hơn nữa với một số sửa đổi quan trọng đối với kiến ​​trúc giúp mang lại hiệu suất ngang bằng với cơ chế tập trung hoàn toàn được sử dụng trong mẫu Transformer ban đầu. Megalodon cũng sử dụng sự chú ý theo từng đoạn, chia chuỗi đầu vào thành các khối có kích thước cố định để giảm độ phức tạp của mô hình từ bậc hai sang tuyến tính. Sự chú ý theo từng đoạn cũng giúp có thể thêm một lớp song song bổ sung để tăng tốc độ huấn luyện mô hình.

Các nhà nghiên cứu đã đào tạo phiên bản Megalodon có 7 tỷ tham số trên 2 nghìn tỷ mã thông báo và so sánh nó với Llama-2-7B, 13B và các mô hình khác. Các thí nghiệm của họ cho thấy Megalodon-7B vượt trội hơn đáng kể so với biến thể hiện đại nhất của Transformer được sử dụng để huấn luyện LLAMA2-7B về cả khả năng huấn luyện bối rối và các tiêu chuẩn xuôi dòng. Trong một số nhiệm vụ, Megalodon-7B có hiệu suất phù hợp với Llama-2-13B.

Với cửa sổ ngữ cảnh 4.000 mã thông báo, Megalodon chậm hơn một chút so với Llama-2, nhưng khi độ dài ngữ cảnh được mở rộng lên 32.000 mã thông báo, Megalodon vượt trội hơn đáng kể so với Llama-2 do hiệu quả tính toán của nó. Hơn nữa, các nhà nghiên cứu khẳng định rằng kết quả thử nghiệm về mô hình ngữ cảnh dài cho thấy Megalodon có thể mô hình hóa các chuỗi có độ dài không giới hạn.

Các nhà nghiên cứu cũng đã thu được kết quả đầy hứa hẹn trong các thí nghiệm quy mô vừa và nhỏ trên các phương thức dữ liệu khác và sau đó sẽ nghiên cứu việc điều chỉnh Megalodon cho phù hợp với môi trường đa phương thức. Các nhà nghiên cứu đã phát hành mã của Megalodon trên GitHub với giấy phép MIT, nghĩa là nó có thể được điều chỉnh và sử dụng cho mục đích thương mại mà không bị hạn chế.

Transformers vẫn chiếm ưu thế

Các nhà khoa học đang tìm kiếm những kiến ​​trúc thay thế có thể thay thế máy biến áp. Một số ví dụ đáng chú ý bao gồm kiến ​​trúc Mamba, hiện đã được triển khai thương mại với AI21 Labs Jamba. Một kiến ​​trúc đầy hứa hẹn khác là mạng lưới thần kinh lỏng, một kiến ​​trúc học sâu chung để xử lý bất kỳ loại dữ liệu tuần tự nào, được phát triển bởi các nhà nghiên cứu tại MIT.

Tuy nhiên, hiện tại, Transformers vẫn tiếp tục là kiến ​​trúc thống trị cho các mô hình ngôn ngữ. Trong khi Meta đang khám phá các kiến ​​trúc như Megalodon, nó vẫn tiếp tục nỗ lực cải tiến các mô hình Transformer của mình và vừa phát hành Llama-3, phiên bản mới nhất của LLM nguồn mở.

Một thách thức khác đối với các đối thủ của Transformer là các công cụ phần cứng và phần mềm cần thiết. Có một hệ sinh thái lớn gồm các thư viện và công cụ để đào tạo, tinh chỉnh và tùy chỉnh các mô hình Transformer cho các ứng dụng và thiết bị phần cứng khác nhau. Đồng thời, các nhà nghiên cứu đã phát triển mã phần mềm cấp thấp nhằm tối ưu hóa hiệu suất của Transformer LLM trên các thiết bị có bộ nhớ hạn chế. Các lựa chọn thay thế vẫn chưa bắt kịp với những phát triển này.

Trong khi đó, các nhà nghiên cứu khác đang nghiên cứu sửa đổi kiến ​​trúc Transformer để giảm yêu cầu về bộ nhớ và tính toán. Ví dụ: Infini-attention, một bài báo gần đây của các nhà nghiên cứu tại Google, nhằm mục đích cung cấp cho các mô hình Transformer cửa sổ ngữ cảnh không giới hạn mà không cần tăng bộ nhớ và độ phức tạp tính toán. Các mô hình biên giới hiện tại hỗ trợ đầu vào của hàng trăm nghìn mã thông báo.

Tuy nhiên, nghiên cứu AI đang tiến triển nhanh chóng. Khi bài báo về Transformer ra mắt vào năm 2017, ít ai nghĩ rằng nó sẽ có tác động như vậy. Một trong những mô hình này có thể đánh bại Transformer trong trò chơi của chính nó."

Meta thách thức kiến ​​trúc máy biến áp với Megalodon LLM

TÁC GIẢ

Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software