Wir empfehlen, vor dem Erstellen von Featurevektoren numerische Daten in auf zwei Arten:
- Visualisieren Sie Ihre Daten in Diagrammen oder Grafiken.
- Statistiken zu Ihren Daten abrufen
Daten visualisieren
Grafiken können Ihnen helfen, Anomalien oder Muster zu finden, die sich in den Daten verstecken. Bevor Sie also zu weit mit der Analyse beginnen, schauen Sie sich Ihre entweder als Streudiagramme oder Histogramme. Grafiken anzeigen, nur am Anfang der Datenpipeline, sondern auch Transformationen. Visualisierungen helfen Ihnen, Ihre Annahmen kontinuierlich zu überprüfen.
Wir empfehlen, zur Visualisierung mit Pandas zu arbeiten:
Beachten Sie, dass bestimmte Visualisierungstools für bestimmte Datenformate optimiert sind. Ein Visualisierungstool, mit dem Sie Protokollpuffer auswerten können, ist möglicherweise können Sie CSV-Daten auswerten.
Daten statistisch auswerten
Neben der visuellen Analyse empfehlen wir auch die Bewertung potenzieller Funktionen und Beschriftungen mathematisch aktualisiert und grundlegende Statistiken erfasst werden, wie zum Beispiel:
- Mittel- und Medianwert
- Standardabweichung
- die Werte bei den Quartildivisionen: 0th, 25th, 50th, 75th und 100. Perzentile. Das 0. Perzentil ist der Minimalwert dieser Spalte. die Das 100. Perzentil ist der Maximalwert dieser Spalte. (Das 50 %-Perzentil ist der Medianwert.)
Ausreißer finden
Ein Ausreißer ist ein Wert, der distant ist. von den meisten anderen Werten einer Funktion oder eines Labels. Ausreißer verursachen häufig Probleme beim Modelltraining, daher ist es wichtig, Ausreißer zu finden.
Wenn das Delta zwischen dem 0. und 25. Perzentil erheblich abweicht aus dem Delta zwischen dem 75. und 100. Perzentil ergibt, wird der Datensatz enthält Ausreißer.
Ausreißer können in eine der folgenden Kategorien fallen:
- Der Ausreißer ist auf einen Fehler zurückzuführen. Vielleicht hat ein Experimentierer fälschlicherweise eine zusätzliche Null eingegeben, oder vielleicht funktionierte ein Instrument, das Daten erfasste, nicht mehr richtig. In der Regel löschen Sie Beispiele mit Fehlerausreißern.
- Der Ausreißer ist ein legitimer Datenpunkt und kein Fehler.
Hat Ihr trainiertes Modell in diesem Fall
aus den Ausreißern gute Vorhersagen ableiten müssen?
- Wenn ja, sollten Sie diese Ausreißer in Ihrem Trainings-Dataset belassen. Schließlich können Ausreißer in bestimmten Funktionen spiegeln manchmal Ausreißer im Label wider, sodass das Ausreißer helfen Ihrem Modell, bessere Vorhersagen zu treffen. Seien Sie vorsichtig, extreme Ausreißer können Ihrem Modell dennoch schaden.
- Falls nicht, löschen Sie die Ausreißer oder wenden Sie mehr invasiveres Feature Engineering an. wie z. B. Clipping.