Xuất bản vào

Bạn có biết rằng LLama 2 hoặc 3 có thể là một trong những lựa chọn tốt nhất nếu bạn cần một cửa sổ ngữ cảnh lớn với mô hình nguồn mở?

Tác giả

"Bạn có biết rằng LLama 2 hoặc 3 có thể là một trong những lựa chọn tốt nhất nếu bạn cần một cửa sổ ngữ cảnh lớn với mô hình nguồn mở? Trên thực tế, bất kỳ mô hình nào sử dụng tính năng nhúng định vị RoPE đều là một sự lựa chọn tốt!

8192 mã thông báo, tức là khoảng 6000 từ. Không tệ nhưng nó hạn chế các ứng dụng có thể. Kiến trúc Transformer điển hình bao gồm các Phần nhúng để mã hóa kiểu nhập văn bản, nhiều khối biến áp và một đầu dự đoán dành riêng cho nhiệm vụ học tập mà LLM được sử dụng. Để mã hóa văn bản, chúng tôi sử dụng ma trận nhúng văn bản T có kích thước từ vựng mã thông báo và nhúng P vị trí mã hóa vị trí của mã thông báo trong chuỗi đầu vào. Kích thước nhúng vị trí đó xác định kích thước ngữ cảnh. Việc nhúng đó có thể được học hoặc có thể là một hàm sin đơn giản của chỉ số vị trí. Thông thường chúng được cộng với nhau T + P sao cho cùng một từ được mã hóa khác nhau ở vị trí i và j.

Điều tuyệt vời ở LLama là nó sử dụng Công cụ nhúng vị trí quay (RoPE) thay vì mã hóa hàm sin thông thường. Mỗi lớp ngữ cảnh được sửa đổi bằng cách sử dụng tính năng nhúng đó và nó đảm bảo sự chú ý được tính toán giữa các mã thông báo đầu vào chỉ phụ thuộc vào khoảng cách giữa các mã thông báo đó. Nếu mã thông báo T1 ở vị trí i và mã thông báo T2 ở vị trí j thì chú ý A(T1, T2) = f(j - i) là một hàm của j - i. Sự chú ý không phụ thuộc vào vị trí của mã thông báo cụ thể mà phụ thuộc vào vị trí tương đối của chúng.

Kỹ thuật sử dụng tại Meta để mở rộng cửa sổ ngữ cảnh là nội suy ở các vị trí không nguyên. Về cơ bản, nếu kích thước cửa sổ ban đầu là L, bạn có thể mở rộng nó thành L' (với L' > L) bằng cách thay đổi tỷ lệ các vị trí số nguyên

i' = i * L / L'

Ví dụ: nếu bạn muốn nhập văn bản gồm 16.384 mã thông báo (gấp 4 lần kích thước cửa sổ của LLama 2) vào LLama 2, bạn chỉ cần chia mọi vị trí số nguyên cho 4: i' = i / 4. rõ ràng, nếu bạn xem cách triển khai LLama 2 có sẵn trên GitHub (dòng 101 trong model.py hôm nay https://lnkd.in/exqcTkDD), bạn chỉ cần thay thế dòng mã sau

t = torch.arange(end, device=freqs.device) qua t = torch.arange(end, device=freqs.device) / 4

Làm thế nào là đơn giản là nó? Vì mô hình chưa được đào tạo để nhúng vị trí đó nên bạn sẽ cần tinh chỉnh mô hình một chút để điều chỉnh mô hình cho phù hợp với cửa sổ ngữ cảnh và nhúng vị trí mới đó. Khi chúng tôi nghĩ rằng LLama 2 rất có thể sẽ được sử dụng để tinh chỉnh dữ liệu riêng tư, đó là điều quan trọng để có thể tự động điều chỉnh cửa sổ ngữ cảnh theo nhu cầu của chúng tôi khi chúng tôi tinh chỉnh nó.

Bạn có thể xem phương pháp tại đây: https://lnkd.in/dCYuwdHz. Họ có thể mở rộng cửa sổ ngữ cảnh của LLama lên 16 lần trong khi vẫn giữ hiệu suất ở mức tương tự!"

Bạn có biết rằng LLama 2 hoặc 3 có thể là một trong những lựa chọn tốt nhất nếu bạn cần một cửa sổ ngữ cảnh lớn với mô hình nguồn mở?

TÁC GIẢ

Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software