Numerische Daten: Wie ein Modell Daten mithilfe von Featurevektoren aufnimmt

Bis jetzt haben wir den Eindruck erweckt, dass ein Modell direkt auf der Zeilen eines Datasets; die Datenaufnahme in den Modellen jedoch etwas anders.

Angenommen, ein Dataset enthält fünf Spalten, aber nur zwei davon Spalten (b und d) sind Merkmale im Modell. Bei der Verarbeitung Beispiel in Zeile 3: Erfasst das Modell einfach den Inhalt der zwei Zellen (3b und 3d) wie folgt markiert?

Abbildung 1: Ein Modell, das ein Beispiel direkt aus einem Dataset aufnimmt.
            Die Spalten b und d von Zeile 3 sind markiert.
Abbildung 1. Nicht genau, wie ein Modell seine Beispiele erhält.

Tatsächlich nimmt das Modell ein Array von Gleitkommawerten auf, das als Featurevektor: Sie können darüber nachdenken, eines Featurevektors als Gleitkommawerte in einem Beispiel.

Abbildung 2. Der Featurevektor ist ein Vermittler zwischen dem Datensatz
            und das Modell.
Abbildung 2. Der Wahrheit näher, aber nicht realistisch.

Featurevektoren verwenden jedoch selten die Rohwerte des Datensatzes. Stattdessen müssen Sie die Werte des Datasets normalerweise in Darstellungen verarbeiten. von denen Ihr Modell besser lernen kann. Eine realistischere könnte etwa so aussehen:

Abbildung 3: Der Featurevektor enthält zwei Gleitkommawerte:
            0,13 und 0,47. Ein realistischerer Featurevektor. <ph type="x-smartling-placeholder">
</ph> Abbildung 3: Ein realistischerer Featurevektor.

Würde ein Modell nicht bessere Vorhersagen liefern, wenn es durch das Training tatsächliche Werte im Dataset als veränderte Werte im Datensatz? Überraschenderweise lautet die Antwort nein.

Sie müssen festlegen, wie die Werte des Rohdaten-Datasets am besten als trainierbar dargestellt werden. im Featurevektor enthalten. Dieser Prozess wird als Feature Engineering und ist ein wichtiger Bestandteil des maschinellen Lernens. Die gängigsten Feature Engineering-Techniken sind:

  • Normalisierung: Wird konvertiert numerische Werte in einen Standardbereich.
  • Binning (auch als bucketing): Numerische Umwandlung in Gruppen von Bereichen unterteilen.

In diesem Modul werden Normalisierung und Gruppierung behandelt. Die nächste Einheit, Mit kategorialen Daten arbeiten deckt andere Formen von Vorverarbeitung, z. B. Nicht numerische Daten wie Strings in Gleitkommawerte umwandeln.

Jeder Wert in einem Featurevektor muss ein Gleitkommawert sein. Viele Funktionen sind naturgemäß Zeichenfolgen oder andere nicht numerische Werte. Daher besteht ein großer Teil des Feature Engineering darin, nicht numerische Werte als numerische Werte. In späteren Modulen erfahren Sie mehr darüber.