In diesem Modul wurden Methoden erforscht, um Rohdaten in geeignete Featurevektoren: Gute numerische Funktionen haben dieselben der in diesem Abschnitt beschriebenen Qualitäten.
Eindeutig benannt
Jede Funktion sollte eine klare, vernünftige und offensichtliche Bedeutung für jeden Menschen haben. für das Projekt. Die Bedeutung des folgenden Merkmalswerts ist beispielsweise verwirrend:
Nicht empfohlen
House_age: 851472000
Im Gegensatz dazu sind der Name und der Wert der Funktion deutlich verständlicher:
Empfohlen
House_age_years: 27
Vor dem Training geprüft oder getestet
Obwohl in diesem Modul viel Zeit
Ausreißern, ist das Thema
so wichtig ist, um eine letzte Erwähnung zu rechtfertigen. In einigen Fällen sind schlechte Daten
(und keine schlechten Engineering-Entscheidungen) führt zu unklaren Werten. Beispiel:
die folgende user_age_in_years
stammt aus einer Quelle, die nicht nach
geeignete Werte:
Nicht empfohlen
user_age_in_years: 224
Personen können jedoch 24 Jahre alt sein:
Empfohlen
user_age_in_years: 24
Daten überprüfen
Vernünftig
Einen „magischen Wert“ eine absichtliche Diskontinuität in einer ansonsten kontinuierlichen
. Angenommen, ein fortlaufendes Feature mit dem Namen watch_time_in_seconds
kann einen beliebigen Gleitkommawert zwischen 0 und 30 enthalten, stellt jedoch fehlen dar.
einer Messung mit dem magischen Wert -1:
Nicht empfohlen
Watch_time_in_seconds: -1
Ein watch_time_in_seconds
von -1 würde das Modell dazu zwingen,
einen Film rückwärts durchgehen zu können. Das resultierende Modell würde
keine guten Vorhersagen machen.
Eine bessere Technik besteht darin, ein separates boolesches Merkmal zu erstellen,
ob watch_time_in_seconds
oder nicht
angegeben ist. Beispiel:
Empfohlen
Watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=TrueWatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Betrachten Sie nun eine diskrete numerisches Merkmal, dessen Werte zu einem endlichen Satz von Werten gehören müssen. In dieser Falls ein Wert fehlt, geben Sie diesen fehlenden Wert durch einen neuen Wert in endliche Menge. Mit einem diskreten Feature lernt das Modell unterschiedliche Gewichtungen für jeden Wert, einschließlich der ursprünglichen Gewichtung für fehlende Elemente.