Ein Modell für maschinelles Lernen kann Eingabebeispiele nicht direkt sehen, hören oder erfassen. Stattdessen müssen Sie eine Darstellung der Daten erstellen, um dem Modell einen nützlichen Einblick in die wichtigsten Eigenschaften der Daten zu bieten. Das heißt, Sie müssen die Merkmale auswählen, die die Daten am besten repräsentieren, um ein Modell zu trainieren.
Darstellung
Von Rohdaten zu Funktionen
Die Idee ist, jeden Teil des Vektors auf der linken Seite einem oder mehreren Feldern im Featurevektor auf der rechten Seite zuzuordnen.
Von Rohdaten zu Funktionen
Von Rohdaten zu Funktionen
Von Rohdaten zu Funktionen
- Das Wörterbuch ordnet jeden Straßennamen einer Ganzzahl in {0, ...,V-1} zu
- Stellen Sie den One-Hot-Vektor oben jetzt als <i> dar.
Eigenschaften einer guten Eigenschaft
Featurewerte sollten mehr als nur wenige Male im Dataset mit einem Wert ungleich null angezeigt werden.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Eigenschaften einer guten Eigenschaft
Funktionen sollten eine klare und offensichtliche Bedeutung haben.
user_age:23
user_age:123456789
Eigenschaften einer guten Eigenschaft
Funktionen sollten keine „magischen“ Werte annehmen
(Verwenden Sie stattdessen eine zusätzliche boolesche Funktion wie watch_time_is_defined!)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Eigenschaften einer guten Eigenschaft
Die Definition eines Elements sollte sich im Laufe der Zeit nicht ändern.
(Achten Sie darauf, auf andere ML-Systeme angewiesen zu sein.)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Eigenschaften einer guten Eigenschaft
Die Verteilung darf keine extremen Ausreißer haben
Idealerweise alle Merkmale, die in einen ähnlichen Bereich transformiert wurden, wie (-1, 1) oder (0, 5).
Der Binning-Trick
Der Binning-Trick
- Mehrere boolesche Klassen erstellen, die jeweils einer neuen eindeutigen Funktion zugeordnet sind
- Lässt zu, dass das Modell für jeden Container einen anderen Wert passt
Gute Gewohnheiten
DATEN ERKENNEN
- Visualisieren: Erstellen Sie Histogramme und ordnen Sie sie vom häufigsten nach am wenigsten häufig zu.
- Fehlerbehebung: Doppelte Beispiele? Fehlende Werte? Ausreißer? Daten stimmen mit Dashboards überein? Trainings- und Validierungsdaten ähnlich?
- Überwachen: Feature-Quantile, Anzahl der Beispiele im Zeitverlauf