Im August 2024 gibt es eine neue und verbesserte Version des Crashkurses zum maschinellen Lernen. Mehr dazu demnächst!

Diese Seite wurde von der Cloud Translation API übersetzt.

Darstellung

Ein Modell für maschinelles Lernen kann Eingabebeispiele nicht direkt sehen, hören oder erfassen. Stattdessen müssen Sie eine Darstellung der Daten erstellen, um dem Modell einen nützlichen Einblick in die wichtigsten Eigenschaften der Daten zu bieten. Das heißt, Sie müssen die Merkmale auswählen, die die Daten am besten repräsentieren, um ein Modell zu trainieren.

Darstellung

Von Rohdaten zu Funktionen

Die Idee ist, jeden Teil des Vektors auf der linken Seite einem oder mehreren Feldern im Featurevektor auf der rechten Seite zuzuordnen.

Einem Featurevektor werden Rohdaten über ein Verfahren zugeordnet, das als Feature Engineering bezeichnet wird.

Von Rohdaten zu Funktionen

Beispiel für ein Feature, das direkt aus den Rohdaten kopiert werden kann

Von Rohdaten zu Funktionen

Beispiel für ein Zeichenfolgenelement (Straßenname), das nicht direkt aus den Rohdaten kopiert werden kann

Von Rohdaten zu Funktionen

Das Wörterbuch ordnet jeden Straßennamen einer Ganzzahl in {0, ...,V-1} zu
Stellen Sie den One-Hot-Vektor oben jetzt als <i> dar.

Eigenschaften einer guten Eigenschaft

Featurewerte sollten mehr als nur wenige Male im Dataset mit einem Wert ungleich null angezeigt werden.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Eigenschaften einer guten Eigenschaft

Funktionen sollten eine klare und offensichtliche Bedeutung haben.

user_age:23

user_age:123456789

Eigenschaften einer guten Eigenschaft

Funktionen sollten keine „magischen“ Werte annehmen

(Verwenden Sie stattdessen eine zusätzliche boolesche Funktion wie watch_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Eigenschaften einer guten Eigenschaft

Die Definition eines Elements sollte sich im Laufe der Zeit nicht ändern.

(Achten Sie darauf, auf andere ML-Systeme angewiesen zu sein.)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Eigenschaften einer guten Eigenschaft

Die Verteilung darf keine extremen Ausreißer haben

Idealerweise alle Merkmale, die in einen ähnlichen Bereich transformiert wurden, wie (-1, 1) oder (0, 5).

Verteilung mit Ausreißern und Verteilung mit einem Cap

Der Binning-Trick

Diagramm, das eine Verteilung mit einer Anpassungskurve basierend auf dem Standort zeigt

Der Binning-Trick

Mehrere boolesche Klassen erstellen, die jeweils einer neuen eindeutigen Funktion zugeordnet sind
Lässt zu, dass das Modell für jeden Container einen anderen Wert passt

Gute Gewohnheiten

DATEN ERKENNEN

Visualisieren: Erstellen Sie Histogramme und ordnen Sie sie vom häufigsten nach am wenigsten häufig zu.
Fehlerbehebung: Doppelte Beispiele? Fehlende Werte? Ausreißer? Daten stimmen mit Dashboards überein? Trainings- und Validierungsdaten ähnlich?
Überwachen: Feature-Quantile, Anzahl der Beispiele im Zeitverlauf