Numerische Daten: Eigenschaften guter numerischer Merkmale

In diesem Modul wurden Methoden erforscht, um Rohdaten in geeignete Featurevektoren: Gute numerische Funktionen haben dieselben der in diesem Abschnitt beschriebenen Qualitäten.

Eindeutig benannt

Jede Funktion sollte eine klare, vernünftige und offensichtliche Bedeutung für jeden Menschen haben. für das Projekt. Die Bedeutung des folgenden Merkmalswerts ist beispielsweise verwirrend:

Nicht empfohlen

House_age: 851472000

Im Gegensatz dazu sind der Name und der Wert der Funktion deutlich verständlicher:

Empfohlen

House_age_years: 27

Vor dem Training geprüft oder getestet

Obwohl in diesem Modul viel Zeit Ausreißern, ist das Thema so wichtig ist, um eine letzte Erwähnung zu rechtfertigen. In einigen Fällen sind schlechte Daten (und keine schlechten Engineering-Entscheidungen) führt zu unklaren Werten. Beispiel: die folgende user_age_in_years stammt aus einer Quelle, die nicht nach geeignete Werte:

Nicht empfohlen

user_age_in_years: 224

Personen können jedoch 24 Jahre alt sein:

Empfohlen

user_age_in_years: 24

Daten überprüfen

Vernünftig

Einen „magischen Wert“ eine absichtliche Diskontinuität in einer ansonsten kontinuierlichen . Angenommen, ein fortlaufendes Feature mit dem Namen watch_time_in_seconds kann einen beliebigen Gleitkommawert zwischen 0 und 30 enthalten, stellt jedoch fehlen dar. einer Messung mit dem magischen Wert -1:

Nicht empfohlen

Watch_time_in_seconds: -1

Ein watch_time_in_seconds von -1 würde das Modell dazu zwingen, einen Film rückwärts durchgehen zu können. Das resultierende Modell würde keine guten Vorhersagen machen.

Eine bessere Technik besteht darin, ein separates boolesches Merkmal zu erstellen, ob watch_time_in_seconds oder nicht angegeben ist. Beispiel:

Empfohlen

Watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=True

Watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Betrachten Sie nun eine diskrete numerisches Merkmal, dessen Werte zu einem endlichen Satz von Werten gehören müssen. In dieser Falls ein Wert fehlt, geben Sie diesen fehlenden Wert durch einen neuen Wert in endliche Menge. Mit einem diskreten Feature lernt das Modell unterschiedliche Gewichtungen für jeden Wert, einschließlich der ursprünglichen Gewichtung für fehlende Elemente.