Bis jetzt haben wir den Eindruck erweckt, dass ein Modell direkt auf der Zeilen eines Datasets; die Datenaufnahme in den Modellen jedoch etwas anders.
Angenommen, ein Dataset enthält fünf Spalten, aber nur zwei davon
Spalten (b
und d
) sind Merkmale im Modell. Bei der Verarbeitung
Beispiel in Zeile 3: Erfasst das Modell einfach den Inhalt der
zwei Zellen (3b und 3d) wie folgt markiert?
Tatsächlich nimmt das Modell ein Array von Gleitkommawerten auf, das als Featurevektor: Sie können darüber nachdenken, eines Featurevektors als Gleitkommawerte in einem Beispiel.
Featurevektoren verwenden jedoch selten die Rohwerte des Datensatzes. Stattdessen müssen Sie die Werte des Datasets normalerweise in Darstellungen verarbeiten. von denen Ihr Modell besser lernen kann. Eine realistischere könnte etwa so aussehen:
Würde ein Modell nicht bessere Vorhersagen liefern, wenn es durch das Training tatsächliche Werte im Dataset als veränderte Werte im Datensatz? Überraschenderweise lautet die Antwort nein.
Sie müssen festlegen, wie die Werte des Rohdaten-Datasets am besten als trainierbar dargestellt werden. im Featurevektor enthalten. Dieser Prozess wird als Feature Engineering und ist ein wichtiger Bestandteil des maschinellen Lernens. Die gängigsten Feature Engineering-Techniken sind:
- Normalisierung: Wird konvertiert numerische Werte in einen Standardbereich.
- Binning (auch als bucketing): Numerische Umwandlung in Gruppen von Bereichen unterteilen.
In diesem Modul werden Normalisierung und Gruppierung behandelt. Die nächste Einheit, Mit kategorialen Daten arbeiten deckt andere Formen von Vorverarbeitung, z. B. Nicht numerische Daten wie Strings in Gleitkommawerte umwandeln.
Jeder Wert in einem Featurevektor muss ein Gleitkommawert sein. Viele Funktionen sind naturgemäß Zeichenfolgen oder andere nicht numerische Werte. Daher besteht ein großer Teil des Feature Engineering darin, nicht numerische Werte als numerische Werte. In späteren Modulen erfahren Sie mehr darüber.