Xuất bản vào

Không thiếu cách mà Dữ liệu có thể sai khi nói đến Học máy.

Tác giả

Không có phép màu nào để tránh những điều đó, nhưng có những cách để giảm thiểu chúng ở một mức độ nào đó.

Image

Chắc chắn không thiếu cách mà Dữ liệu có thể sai khi nói đến Học máy! Không có mẹo thần kỳ nào để tránh điều đó, nhưng có những cách để giảm thiểu chúng ở mức độ nào đó.

  • Biến rò rỉ là khi bạn sử dụng thông tin mà bạn không thể biết vào thời điểm dự đoán trong dữ liệu huấn luyện của bạn. Theo một nghĩa nào đó, bạn đang bao gồm những gì bạn đang cố gắng dự đoán như một phần của tập hợp đặc trưng của bạn, điều này dẫn đến các mô hình dường như hoạt động quá mức.

  • Trôi dạt khái niệm là khi phân phối của các biến đầu vào cơ bản vẫn giữ nguyên, nhưng mối quan hệ của chúng với biến mục tiêu thay đổi. Đó là lý do tại sao điều quan trọng là phải có các chiến lược huấn luyện định kỳ hoặc huấn luyện liên tục.

  • Vòng phản hồi là khi các dự đoán của mô hình hiện tại được sử dụng để tích lũy dữ liệu huấn luyện trong tương lai. Vì điều đó, nó dẫn đến thiên lệch lựa chọn với các mô hình tương lai được huấn luyện trên dữ liệu không đại diện tốt cho dữ liệu sản xuất. Điều đó xảy ra rất nhiều trong các công cụ đề xuất! Điều đó thực sự có thể dẫn đến các mô hình tốt hơn nhưng nó cũng có thể củng cố những sai lầm do các mô hình trước đó gây ra.

  • Tính dừng là một giả định cơ bản trong học thống kê khi chúng ta giả định rằng các mẫu được phân phối đồng nhất. Nếu phân phối xác suất của chúng thay đổi theo thời gian (không dừng), giả định phân phối đồng nhất bị vi phạm. Đó là lý do tại sao việc xây dựng các đặc trưng càng dừng càng tốt là rất quan trọng. Ví dụ, số tiền đô la không phải là một đặc trưng tốt (vì lạm phát), nhưng thay đổi đô la tương đối (Δ//) có thể tốt hơn.

  • Dịch chuyển dân số là một vấn đề điển hình dẫn đến dịch chuyển khái niệm và không dừng. Dân số cơ bản được sử dụng cho mô hình suy luận thay đổi theo thời gian, và dữ liệu huấn luyện ban đầu không còn đại diện cho dân số hiện tại nữa. Một lần nữa, huấn luyện định kỳ là một biện pháp tốt cho vấn đề này.

  • Thay đổi quy định là một vấn đề khó khăn! Một ngày nào đó, một luật dữ liệu mới được thông qua hoặc Apple Store thay đổi chính sách bảo mật của mình khiến việc thu thập một đặc trưng cụ thể trở nên không thể. Cả công ty đã phá sản vì họ dựa vào dữ liệu cụ thể mà Google Play hoặc Apple Store cho phép thu thập một ngày, nhưng ngăn cản vào ngày hôm sau.

  • Quá khớp rõ ràng là điều nổi tiếng nhất, và may mắn thay, đó là điều mà mọi kỹ sư ML đều chuẩn bị tốt! Đây là khi mô hình không tổng quát hóa tốt với dữ liệu kiểm tra vì nó nắm bắt quá nhiều nhiễu thống kê trong dữ liệu huấn luyện.

  • Thiên lệch dữ liệu huấn luyện là khi phân phối mẫu trong quá trình huấn luyện không đại diện tốt cho phân phối dữ liệu sản xuất, dẫn đến các mô hình thiên lệch. Điều quan trọng là phải hiểu cách thiên lệch sẽ ảnh hưởng đến suy luận.

  • Dịch chuyển đồng biến là khi phân phối đặc trưng đầu vào P(X) thay đổi nhưng không phải mối quan hệ của chúng với mục tiêu P(Y|X). Điều này có thể dẫn đến thiên lệch trong quá trình chọn dữ liệu huấn luyện có thể dẫn đến các mô hình không chính xác.

TÁC GIẢ

Về ABN Asia: AiUTOMATING PEOPLE, ABN Asia được thành lập từ năm 2012, là một công ty xuất phát từ học thuật, do những giảng viên, cựu du học sinh Hungary, Hà Lan, Nga, Đức, và Nhật Bản sáng lập. Chúng tôi chia sẻ đam mê chung và tầm nhìn vững chắc về công nghệ, mang đến sự đổi mới và chất lượng đỉnh cao cho khách hàng. Phương châm của chúng tôi là: Tốt hơn. Nhanh hơn. An toàn hơn. Trong nhiều trường hợp: Rẻ hơn.

Hãy liên hệ với chúng tôi khi Quý doanh nghiệp có các nhu cầu về dịch vụ công nghệ thông tin, tư vấn chuyển đổi số, tìm kiếm các giải pháp phần mềm phù hợp, hoặc nếu Quý doanh nghiệp có đấu thầu CNTT (RFP) để chúng tôi tham dự. Quý doanh nghiệp có thể liên hệ với chúng tôi qua địa chỉ email [email protected]. Chúng tôi sẵn lòng hỗ trợ với mọi nhu cầu công nghệ của Quý doanh nghiệp.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software