Der Zustand eines Modells für maschinelles Lernen (ML) wird durch seine Daten bestimmt. Füttern Sie Ihr gesunde Daten modellieren und gedeihen wird; füttern Sie Ihren Modellmüll Vorhersagen wertlos sind.
Best Practices für die Arbeit mit numerischen Daten:
- Denken Sie daran, dass Ihr ML-Modell mit den Daten in der Featurevektor nicht die Daten im Dataset:
- Meistens normalisieren numerische Merkmale.
- Wenn Ihre erste Normalisierungsstrategie nicht erfolgreich ist, erwägen Sie eine andere Daten zu normalisieren.
- Binning, auch als Bucketing besser als Normalisierung.
- Überlegen Sie, wie Ihre Daten aussehen sollten, und schreiben Sie
um diese Erwartungen zu bestätigen. Beispiel:
- Der absolute Wert des Breitengrads darf 90 nicht überschreiten. Sie können eine um zu prüfen, ob ein Breitengradwert über 90 in Ihren Daten vorkommt.
- Wenn Ihre Daten auf den US-Bundesstaat Florida beschränkt sind, können Sie Tests schreiben um zu überprüfen, ob die Breitengrade zwischen 24 und 31 (einschließlich) liegen.
- Visualisieren Sie Ihre Daten mit Streudiagrammen und Histogrammen. Suchen Sie nach Anomalien.
- Erfassen Sie nicht nur Statistiken zum gesamten Dataset, sondern auch zu kleineren Datasets Teilmengen des Datasets. Das liegt daran, dass zusammengefasste Statistiken manchmal Probleme in kleineren Abschnitten eines Datasets zu verdecken.
- Dokumentieren Sie alle Datentransformationen.
Daten sind Ihre wertvollste Ressource, also gehen Sie sorgsam damit um.
Weitere Informationen
- Der Leitfaden Regeln für maschinelles Lernen enthält nützliche Informationen. <ph type="x-smartling-placeholder"></ph> Feature Engineering.
Nächste Schritte
Sie haben dieses Modul abgeschlossen.
Wir empfehlen Ihnen, sich die verschiedenen MLCC-Module anzusehen. in Ihrem eigenen Tempo und Ihren Interessen. Wenn Sie einer empfohlenen Reihenfolge folgen möchten, sollten Sie als Nächstes mit dem folgenden Modul fortfahren: Darstellung kategorischer Daten.