Bevor Sie Feature-Vektoren erstellen, empfehlen wir, numerische Daten auf zwei Arten zu untersuchen:
- Daten in Plots oder Diagrammen visualisieren.
- Statistiken zu Ihren Daten abrufen
Daten visualisieren
Mithilfe von Grafiken können Sie Anomalien oder Muster in den Daten erkennen. Bevor Sie mit der Analyse beginnen, sollten Sie sich Ihre Daten daher grafisch ansehen, entweder als Streudiagramme oder Histogramme. Sie können Diagramme nicht nur am Anfang der Datenpipeline, sondern auch während der Datentransformationen aufrufen. Mithilfe von Visualisierungen können Sie Ihre Annahmen kontinuierlich überprüfen.
Wir empfehlen für die Visualisierung die Verwendung von Pandas:
Bestimmte Visualisierungstools sind für bestimmte Datenformate optimiert. Ein Visualisierungstool, das Ihnen bei der Auswertung von Protokoll-Buffers hilft, kann Ihnen bei der Auswertung von CSV-Daten helfen oder auch nicht.
Daten statistisch auswerten
Neben der visuellen Analyse empfehlen wir auch, potenzielle Funktionen und Labels mathematisch zu bewerten und grundlegende Statistiken zu erheben, z. B.:
- Mittelwert und Median
- Standardabweichung
- die Werte an den Quartilunterteilungen: das 0., 25., 50., 75. und 100. Perzentil. Der 0. Perzentilwert ist der Mindestwert dieser Spalte und der 100. Perzentilwert ist der Höchstwert dieser Spalte. (Das 50. Perzentil ist der Medianwert.)
Ausreißer finden
Ein Ausreißer ist ein Wert, der weit entfernt von den meisten anderen Werten in einem Merkmal oder Label liegt. Außerhalb der Norm liegende Werte verursachen häufig Probleme beim Modelltraining. Daher ist es wichtig, sie zu finden.
Wenn sich das Delta zwischen dem 0. und dem 25. Perzentil deutlich vom Delta zwischen dem 75. und dem 100. Perzentil unterscheidet, enthält der Datensatz wahrscheinlich Ausreißer.
Außerhalb der Norm liegende Werte können in eine der folgenden Kategorien fallen:
- Der Ausreißer ist auf einen Fehler zurückzuführen. Vielleicht hat ein Testleiter beispielsweise versehentlich eine zusätzliche Null eingegeben oder ein Gerät, mit dem Daten erfasst wurden, funktionierte nicht richtig. Sie sollten in der Regel Beispiele löschen, die Abweichungen aufgrund von Fehlern enthalten.
- Der Ausreißer ist ein legitimer Datenpunkt und kein Fehler.
Muss Ihr trainiertes Modell in diesem Fall gute Vorhersagen für diese Ausreißer treffen?
- Wenn ja, lassen Sie diese Ausreißer im Trainingssatz. Außerhalb der Norm liegende Werte bei bestimmten Merkmalen spiegeln manchmal Außerhalb der Norm liegende Werte im Label wider. Daher können sie Ihrem Modell helfen, bessere Vorhersagen zu treffen. Achtung: Extreme Ausreißer können Ihrem Modell trotzdem schaden.
- Falls nicht, löschen Sie die Ausreißer oder wenden Sie drastischere Techniken zur Feature-Erstellung an, z. B. Clipping.