Numerische Daten: Fazit

Die Gesundheit eines Modells für maschinelles Lernen (ML) wird durch seine Daten bestimmt. Wenn Sie Ihrem Modell gute Daten zuführen, wird es sich gut entwickeln. Wenn Sie es mit Junk-Daten füttern, sind seine Vorhersagen wertlos.

Best Practices für die Arbeit mit numerischen Daten:

  • Denken Sie daran, dass Ihr ML-Modell mit den Daten im Featurevektor nicht die Daten im dataset:
  • Normalisieren Sie die meisten numerischen Merkmale.
  • Wenn Ihre erste Normalisierungsstrategie nicht erfolgreich ist, erwägen Sie eine andere Daten zu normalisieren.
  • Binning, auch als Bucketing besser als Normalisierung.
  • Überlegen Sie, wie Ihre Daten aussehen sollten, und schreiben Sie Bestätigungstests, um diese Erwartungen zu validieren. Beispiel:
    • Der absolute Wert des Breitengrads darf 90 nicht überschreiten. Sie können eine um zu prüfen, ob ein Breitengradwert über 90 in Ihren Daten vorkommt.
    • Wenn Ihre Daten auf den US-Bundesstaat Florida beschränkt sind, können Sie Tests schreiben, um zu prüfen, ob die Breitengrade zwischen 24 und 31 liegen (jeweils einschließlich).
  • Visualisieren Sie Ihre Daten mit Streudiagrammen und Histogrammen. Suchen Sie nach Anomalien.
  • Sie können Statistiken nicht nur für den gesamten Datensatz, sondern auch für kleinere Teilmengen des Datensatzes erfassen. Das liegt daran, dass Probleme in kleineren Teilen eines Datensatzes durch zusammengefasste Statistiken manchmal verdeckt werden.
  • Dokumentieren Sie alle Datentransformationen.

Daten sind Ihre wertvollste Ressource, also gehen Sie sorgsam damit um.

Weitere Informationen

  • Der Leitfaden Regeln für maschinelles Lernen enthält nützliche Informationen. Feature Engineering.

Nächste Schritte

Sie haben dieses Modul abgeschlossen.

Wir empfehlen Ihnen, sich die verschiedenen MLCC-Module anzusehen. in Ihrem eigenen Tempo und Ihren Interessen. Wenn Sie einer empfohlenen Reihenfolge folgen möchten, sollten Sie als Nächstes mit dem folgenden Modul fortfahren: Darstellung kategorischer Daten.