Stichprobenerhebung und Aufteilung

Klicken Sie bei den folgenden Fragen auf den gewünschten Pfeil, um Ihre Antwort zu prüfen:

Angenommen, Sie haben ein Dataset mit einem positiven und negativen Verhältnis von 1:1000. Leider prognostiziert Ihr Modell immer die Mehrheitsklasse. Mit welcher Methode können Sie dieses Problem am besten beheben? Beachten Sie, dass das Modell eine kalibrierte Wahrscheinlichkeit melden soll.
Reduzieren Sie einfach die Beispiele mit den negativen Beispielen.
Das ist ein guter Anfang, aber Sie ändern die Basis-Rate des Modells, damit es nicht mehr kalibriert ist.
Führen Sie einen Downsampling der negativen Beispiele (der Mehrheitsklasse) durch. Erhöhen Sie dann die Downsampling-Klasse um denselben Faktor.
Dies ist eine effektive Methode, um mit unausgeglichenen Daten umzugehen und dennoch die echte Verteilung von Labels zu erhalten. Es spielt keine Rolle, ob das Modell eine kalibrierte Wahrscheinlichkeit meldet oder nicht. Wenn es nicht kalibriert werden muss, müssen Sie sich keine Gedanken über die Änderung des Basispreises machen.
Bei welchen Verfahren gehen Daten aus dem Ende eines Datasets verloren? Wähle alle zutreffenden Antworten aus.
Filtern von personenidentifizierbaren Informationen
Wenn Sie personenidentifizierbare Informationen aus Ihren Daten herausfiltern, können Informationen im Hintergrund entfernt werden, was die Verteilung verzerrt.
Gewichtung
Durch die Gewichtung von Beispielen wird die Bedeutung verschiedener Beispiele verändert, ohne dass Informationen verloren gehen. Tatsächlich kann das Hinzufügen von Gewicht zu den Schwanzbeispielen dazu beitragen, dass dein Modell das Verhalten am Schwanz lernt.
Downsampling
Bei der Verteilung der Featureverteilungen werden beim Downsampling Informationen verloren gehen. Da wir jedoch die Mehrheitsklasse in der Regel für die Stichprobe verwenden, ist dieser Verlust in der Regel kein großes Problem.
Normalisierung
Bei der Normalisierung werden einzelne Beispiele verwendet, sodass keine Stichprobenverzerrung entsteht.
Sie arbeiten an einem Klassifizierungsproblem und teilen die Daten nach dem Zufallsprinzip in Trainings-, Bewertungs- und Test-Datasets auf. Der Klassifikator funktioniert einwandfrei. In der Produktion ist der Klassifikator jedoch ein Gesamtfehler. Später stellen Sie fest, dass das Problem durch eine zufällige Aufteilung verursacht wurde. Welche Arten von Daten sind anfällig für dieses Problem?
Zeitachsendaten
Bei der zufälligen Aufteilung wird jeder Cluster auf die Test-/Trainingsaufteilung aufgeteilt. So erhalten Sie eine Vorschau auf das Modell, die in der Produktion nicht verfügbar ist.
Daten, die sich im Laufe der Zeit nicht wesentlich ändern
Wenn sich deine Daten im Laufe der Zeit nicht stark ändern, hast du mit einer zufälligen Aufteilung bessere Chancen. So könnten Sie beispielsweise die Hunderasse auf Fotos erkennen oder Patienten prognostizieren, bei denen ein Risiko für Herzfehler besteht, basierend auf früheren biometrischen Daten. In beiden Fällen ändern sich die Daten in der Regel nicht im Laufe der Zeit. Daher sollte die zufällige Teilung kein Problem darstellen.
Gruppierungen von Daten
Das Test-Dataset ist immer dem Trainings-Dataset zu ähnlich, da sich Cluster mit ähnlichen Daten in beiden Datasets befinden. Das Modell hat offenbar eine bessere Vorhersageleistung als es.
Daten mit Bursting (Daten werden zeitweise und nicht kontinuierlich gesendet)
Cluster mit ähnlichen Daten (Bursts) werden sowohl beim Training als auch beim Testen angezeigt. Das Modell kann beim Testen bessere Vorhersagen treffen als bei neuen Daten.