- Veröffentlicht am
Keine Mangel an Möglichkeiten, wie Daten bei Machine Learning schiefgehen können
- Autoren

- Name
- AbnAsia.org
- @steven_n_t
Es gibt keine Zaubertricks, um sie zu vermeiden, aber es gibt Möglichkeiten, sie in gewissem Maße abzumildern.

Es gibt definitiv keine Mangel an Möglichkeiten, wie Daten im Maschinellen Lernen schiefgehen können. Es gibt keine magischen Tricks, um sie zu vermeiden, aber es gibt Möglichkeiten, sie in gewissem Maße zu mildern.
Leckende Variablen treten auf, wenn Sie Informationen verwenden, die Sie zum Zeitpunkt der Vorhersage nicht hätten kennen können, in Ihren Trainingsdaten. In gewisser Weise fügen Sie das, was Sie vorhersagen möchten, Ihrem Merkmalsset hinzu, was zu scheinbar überperformenden Modellen führt.
Konzeptdrift tritt auf, wenn die Verteilung der zugrunde liegenden Eingangsvariablen gleich bleibt, aber ihre Beziehungen zur Zielvariable sich ändern. Deshalb ist es wichtig, regelmäßige Neuschulungen oder kontinuierliche Schulungsstrategien zu haben.
Rückkopplungsschleifen treten auf, wenn die Vorhersagen des aktuellen Modells verwendet werden, um zukünftige Trainingsdaten zu sammeln. Dadurch entsteht eine Selektionsverzerrung bei zukünftigen Modellen, die auf Daten trainiert werden, die die Produktionsdaten nicht gut repräsentieren. Das kommt oft in Empfehlungsmaschinen vor! Das kann tatsächlich zu besseren Modellen führen, aber es kann auch die Fehler früherer Modelle verstärken.
Stationarität ist eine grundlegende Annahme im statistischen Lernen, da wir davon ausgehen, dass die Stichproben identisch verteilt sind. Wenn ihre Wahrscheinlichkeitsverteilung sich über die Zeit ändert (nicht-stationär), wird die Annahme der identischen Verteilung verletzt. Deshalb ist es wichtig, Merkmale zu erstellen, die so stationär wie möglich sind. Zum Beispiel ist der Dollarbetrag kein gutes Merkmal (wegen der Inflation), aber relative Dollaränderungen (Δ) könnten besser sein.
Bevölkerungsschwankungen sind ein typisches Problem, das zu Konzeptverschiebungen und Nicht-Stationarität führt. Die zugrunde liegende Bevölkerung, die für das Modell verwendet wird, ändert sich über die Zeit, und die ursprünglichen Trainingsdaten sind nicht mehr repräsentativ für die aktuelle Bevölkerung. Wiederum ist regelmäßige Neuschulung ein gutes Mittel gegen dieses Problem.
Regulierungsänderungen sind ein schwieriges Thema! Eines Tages wird ein neues Datenschutzgesetz verabschiedet oder der Apple Store ändert seine Datenschutzrichtlinien, was die Erfassung bestimmter Merkmale unmöglich macht. Ganze Unternehmen gingen bankrott, weil sie von bestimmten Daten abhängig waren, die Google Play oder der Apple Store eines Tages erlaubten, aber am nächsten Tag verboten.
Überanpassung ist offensichtlich das bekannteste Problem, und zum Glück ist es das Problem, auf das sich jeder ML-Ingenieur gut vorbereitet hat! Dies tritt auf, wenn das Modell sich nicht gut auf die Testdaten verallgemeinert, weil es zu viel des statistischen Rauschens in den Trainingsdaten erfasst.
Trainingsdatenverzerrung tritt auf, wenn die Stichprobenverteilung während des Trainings die Produktionsdatenverteilung nicht gut repräsentiert, was zu verzerrten Modellen führt. Es ist wichtig, zu verstehen, wie die Verzerrung die Schlussfolgerungen beeinflusst.
Kovariatenverschiebung tritt auf, wenn die Eingabemerkmalverteilung P(X) sich ändert, aber nicht ihre Beziehung zur Zielvariable P(Y|X). Dies kann zu Verzerrungen im Trainingsdatenauswahlprozess führen, die zu ungenauen Modellen führen können.
Bitte beachten Sie, dass die deutsche Version von Ai unterstützt wird und daher geringfügige Fehler auftreten können.
AUTOR
Über ABN Asia: Ai Base Network (ABN), ABN Asia wurde im Jahr 2012 gegründet und ist ein Unternehmen mit akademischem Hintergrund, das von Lehrkräften und ehemaligen Studierenden aus Ungarn, den Niederlanden, Russland, Deutschland und Japan gegründet wurde. Wir teilen eine gemeinsame Leidenschaft und eine klare Vision für Technologie, die Innovation und erstklassige Qualität für unsere Kunden bringt. Unser Motto lautet: Besser. Schneller. Sicherer. In vielen Fällen: Günstiger.
Zögern Sie nicht, uns zu kontaktieren, wenn Sie IT-Dienstleistungen, digitale Beratung, Standardsoftwarelösungen benötigen oder uns Angebotsanfragen (RFPs) senden möchten. Sie können uns unter [email protected] kontaktieren. Wir sind bereit, Ihnen bei all Ihren Technologiebedürfnissen zu helfen.

© ABN ASIA