Publié le

Pas de pénurie de façons dont les données peuvent aller de travers lorsqu'il s'agit d'apprentissage automatique

Auteurs

Il n'y a pas de tours de magie pour les éviter, mais il existe des moyens de les atténuer dans une certaine mesure.

Image

Il n'y a définitivement pas pénurie de moyens pour que les données puissent aller mal lorsqu'il s'agit d'apprentissage automatique ! Il n'y a pas de tours de magie pour éviter ceux-ci, mais il y a des moyens de les atténuer dans une certaine mesure.

  • Les variables qui fuient sont lorsque vous utilisez des informations que vous n'auriez pas pu connaître au moment de la prédiction dans vos données d'entraînement. En un sens, vous incluez ce que vous essayez de prédire dans votre ensemble de fonctionnalités, ce qui conduit à des modèles qui semblent surperformer.

  • Le dérive de concept est lorsque la distribution des variables d'entrée sous-jacentes reste la même, mais leurs relations avec la variable cible changent. C'est pourquoi il est important d'avoir des stratégies de réentraînement périodiques ou de formation continue en place.

  • Les boucles de rétroaction sont lorsque les prédictions du modèle actuel sont utilisées pour accumuler des données de formation futures. À cause de cela, cela conduit à un biais de sélection avec des modèles futurs formés sur des données qui ne représentent pas bien les données de production. Cela se produit beaucoup dans les moteurs de recommandation ! Cela peut en fait tendre à conduire à de meilleurs modèles, mais cela peut également renforcer les erreurs commises par les modèles précédents.

  • La stationnarité est une hypothèse fondamentale dans l'apprentissage statistique, car nous supposons que les échantillons sont identiquement distribués. Si leur distribution de probabilité évolue au fil du temps (non stationnaire), l'hypothèse de distribution identique est violée. C'est pourquoi il est crucial de construire des fonctionnalités qui soient aussi stationnaires que possible. Par exemple, le montant en dollars n'est pas une fonctionnalité bonne (en raison de l'inflation), mais les changements relatifs en dollars (Δ//) peuvent être meilleurs.

  • Le déplacement de population est un problème typique qui conduit à un déplacement de concept et à une non-stationnarité. La population sous-jacente utilisée pour que le modèle infère change au fil du temps, et les données d'entraînement d'origine ne sont plus représentatives de la population actuelle. Encore une fois, le réentraînement périodique est un bon remède pour ce problème.

  • Les changements réglementaires sont difficiles ! Un jour, une nouvelle loi sur les données est votée ou l'Apple Store change ses politiques de confidentialité, rendant impossible la capture d'une fonctionnalité spécifique. Des entreprises entières ont fait faillite parce qu'elles comptaient sur des données spécifiques que Google Play ou l'Apple Store autorisaient à capturer un jour, mais interdisaient le lendemain.

  • Le surajustement est évidemment le plus connu, et heureusement, c'est celui pour lequel chaque ingénieur en apprentissage automatique est bien préparé ! C'est lorsque le modèle ne généralise pas bien aux données de test parce qu'il capture trop de bruit statistique dans les données d'entraînement.

  • Le biais des données d'entraînement est lorsque la distribution de l'échantillon pendant l'entraînement ne représente pas bien la distribution des données de production, conduisant à des modèles biaisés. Il est crucial de comprendre comment le biais affectera les inférences.

  • Le déplacement des covariables est lorsque la distribution des fonctionnalités d'entrée P(X) change mais pas leur relation avec la cible P(Y|X). Cela peut conduire à des biais dans le processus de sélection des données de formation qui peuvent entraîner des modèles inexactes.

Veuillez noter que la version française est assistée par Ai, des erreurs mineures peuvent donc exister.

Auteur

AiUTOMATING PEOPLE, ABN ASIA a été fondée par des personnes ayant des racines profondes dans le milieu académique, avec une expérience professionnelle aux États-Unis, aux Pays-Bas, en Hongrie, au Japon, en Corée du Sud, à Singapour et au Vietnam. ABN ASIA est l'endroit où l'académie et la technologie rencontrent l'opportunité. Avec nos solutions de pointe et nos services de développement logiciel compétents, nous aidons les entreprises à se développer et à s'imposer sur la scène mondiale. Notre engagement : Plus vite. Mieux. Plus fiable. Dans la plupart des cas : moins cher également.

N'hésitez pas à nous contacter chaque fois que vous avez besoin de services informatiques, de conseils en matière de numérique, de solutions logicielles prêtes à l'emploi, ou si vous souhaitez nous envoyer des demandes de propositions (RFP). Vous pouvez nous contacter à l'adresse [email protected]. Nous sommes prêts à vous aider avec tous vos besoins technologiques.

ABNAsia.org

© ABN ASIA

AbnAsia.org Software