Xuất bản vào

Máy biến áp có thể được sử dụng cho nhiều nhiệm vụ học tập và sự khác biệt duy nhất đến từ cách chúng ta chuẩn bị dữ liệu

Tác giả

Các mô hình Transformer có thể được sử dụng cho nhiều nhiệm vụ học, và sự khác biệt duy nhất đến từ cách chúng ta chuẩn bị dữ liệu, mô hình hóa mà chúng ta chọn, và hàm mất mát mà chúng ta sử dụng để tối ưu hóa mô hình.

Với Mô hình ngôn ngữ dự đoán gây rối (Causal Language Modeling), mô hình học thống kê ngôn ngữ bằng cách tập trung vào việc dự đoán từ tiếp theo trong một chuỗi. Đây là cách thường được sử dụng hơn để thực hiện mô hình hóa ngôn ngữ ngày nay, và đây đã là cách tiếp cận được thực hiện từ GPT-1. Tính gây rối được đảm bảo bằng cách áp dụng một mặt nạ cho ma trận chú ý được tính toán trong các lớp chú ý. Để tránh chú ý đến các từ sau trong chuỗi, chúng ta chỉ cần đặt giá trị chú ý là 0 cho những từ đó. Để huấn luyện mô hình này, chúng ta chỉ cần dịch chuyển các đầu vào bằng cách loại bỏ từ đầu tiên để tạo ra các nhãn.

Đối với phân loại văn bản, chúng ta muốn liên kết dữ liệu văn bản đầu vào với một số danh mục. Ví dụ, trong ngữ cảnh của phân tích cảm xúc, chúng ta có thể muốn phân loại câu đầu vào thành ba danh mục sau: [TÍCH CỰC], [TIÊU CỰC] và [TRUNG LẬP]. Trong ngữ cảnh của phân loại văn bản, chúng ta chỉ cần một vector dự đoán, và chiến lược điển hình thường là chọn một trong các trạng thái ẩn và chiếu nó vào không gian dự đoán. Điều này hoạt động vì, mặc dù có nhiều trạng thái ẩn như có nhiều mã thông báo đầu vào, sau khi đi qua nhiều khối transformer, chúng đều đại diện cho một biểu diễn vướng víu của cả câu. Để huấn luyện mô hình đó, chúng ta chỉ cần so sánh các vector dự đoán với các nhãn phân loại bằng cách sử dụng một hàm mất mát như mất mát cross-entropy.

Nhiệm vụ học phân loại token thường được sử dụng cho các ứng dụng như Nhận dạng Thực thể Đặt tên (NER). Chúng ta muốn phân loại mỗi token trong câu đầu vào. Ví dụ, chúng ta có thể muốn liên kết mỗi từ với các loại từ của chúng: [DANH TỪ], [ĐỘNG TỪ] và [TÍNH TỪ]. Đối với mỗi đầu vào trong chuỗi, chúng ta cần một vector dự đoán có kích thước bằng số lượng danh mục chúng ta muốn dự đoán. Trong quá trình huấn luyện, chúng ta so sánh ma trận dự đoán đó cho tất cả các token với danh mục của chúng trong các nhãn bằng một hàm mất mát cross-entropy và cập nhật trọng số của mô hình.

Máy biến áp có thể được sử dụng cho nhiều nhiệm vụ học tập và sự khác biệt duy nhất đến từ cách chúng ta chuẩn bị dữ liệu

TÁC GIẢ

Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. chúng ta chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng ta là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng ta khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng ta tham dự. Quý doanh nghiệp có thể liên hệ với chúng ta qua địa chỉ email [email protected]. chúng ta sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software