Diterbitkan pada

Tidak kurangnya cara Data dapat salah ketika datang ke Pembelajaran Mesin

Penulis

Tidak ada trik ajaib untuk menghindarinya, tetapi ada cara untuk meminimalkannya hingga taraf tertentu.

Image

Tentu saja tidak ada kekurangan cara Data bisa salah ketika berbicara tentang Machine Learning! Tidak ada trik ajaib untuk menghindari hal-hal tersebut, tetapi ada cara untuk menguranginya sampai batas tertentu.

  • Variabel bocor adalah ketika Anda menggunakan informasi yang tidak bisa Anda ketahui pada saat prediksi dalam data pelatihan Anda. Dalam arti, Anda memasukkan apa yang Anda coba prediksi sebagai bagian dari set fitur Anda, yang menyebabkan model yang tampaknya berkinerja lebih baik.

  • Perubahan konsep adalah ketika distribusi variabel input yang mendasarinya tetap sama, tetapi hubungannya dengan variabel target berubah. Itulah mengapa penting untuk memiliki strategi pelatihan berkala atau pelatihan terus-menerus.

  • Umpan balik adalah ketika prediksi model saat ini digunakan untuk mengumpulkan data pelatihan masa depan. Karena itu, hal ini menyebabkan bias seleksi dengan model masa depan yang dilatih pada data yang tidak mewakili dengan baik data produksi. Hal ini sering terjadi pada mesin rekomendasi! Hal ini sebenarnya dapat menyebabkan model yang lebih baik, tetapi juga dapat memperkuat kesalahan yang dibuat oleh model sebelumnya.

  • Stasionaritas adalah asumsi dasar dalam pembelajaran statistik karena kita mengasumsikan bahwa sampel identik didistribusikan. Jika distribusi probabilitas mereka berkembang seiring waktu (non-stasioner), asumsi distribusi identik dilanggar. Itulah mengapa penting untuk membangun fitur yang se-stasioner mungkin. Misalnya, jumlah dolar bukanlah fitur yang baik (karena inflasi), tetapi perubahan dolar relatif (Δ//) mungkin lebih baik.

  • Perubahan populasi adalah masalah yang umum yang menyebabkan perubahan konsep dan non-stasionaritas. Populasi yang mendasarinya digunakan untuk model untuk menyimpulkan perubahan seiring waktu, dan data pelatihan asli tidak lagi mewakili populasi saat ini. Lagi-lagi, pelatihan berkala adalah obat yang baik untuk masalah ini.

  • Perubahan regulasi adalah yang sulit! Suatu hari, undang-undang data baru disahkan atau Apple Store mengubah kebijakan privasinya sehingga mengumpulkan fitur tertentu menjadi tidak mungkin. Perusahaan-perusahaan bangkrut karena mereka bergantung pada data tertentu yang Google Play atau Apple Store izinkan untuk dikumpulkan satu hari, tetapi mencegahnya keesokan harinya.

  • Overfitting adalah yang paling terkenal, dan untungnya, ini adalah yang setiap insinyur ML siap untuk! Ini adalah ketika model tidak umum dengan baik ke data uji karena menangkap terlalu banyak kebisingan statistik dalam data pelatihan.

  • Bias data pelatihan adalah ketika distribusi sampel selama pelatihan tidak mewakili distribusi data produksi dengan baik, menyebabkan model yang bias. Sangat penting untuk memahami bagaimana bias akan mempengaruhi inferensi.

  • Perubahan kovariat adalah ketika distribusi fitur input P(X) berubah tetapi tidak hubungannya dengan target P(Y|X). Hal ini dapat menyebabkan bias dalam proses pemilihan data pelatihan yang dapat menghasilkan model yang tidak akurat.

Harap dicatat bahwa versi bahasa Indonesia didukung oleh AI dan karena itu mungkin terjadi kesalahan kecil.

Penulis

Ai Base Network (ABN), ABN ASIA didirikan oleh orang-orang dengan akar yang kuat di dunia akademis, dengan pengalaman kerja di Amerika Serikat, Belanda, Hungaria, Jepang, Korea Selatan, Singapura, dan Vietnam. ABN Asia adalah tempat di mana akademik dan teknologi bertemu dengan peluang. Dengan solusi terdepan kami dan layanan pengembangan perangkat lunak yang kompeten, kami membantu bisnis untuk meningkatkan level dan bersaing di panggung global. Komitmen kami: Lebih Cepat. Lebih Baik. Lebih handal. Dalam kebanyakan kasus: Lebih murah juga.

Jangan ragu untuk menghubungi kami jika Anda membutuhkan layanan IT, konsultasi digital, solusi perangkat lunak siap pakai, atau jika Anda ingin mengirimkan permintaan proposal (RFP). Anda dapat menghubungi kami di [email protected]. Kami siap membantu Anda dengan semua kebutuhan teknologi Anda.

ABNAsia.org

© ABN ASIA