Kategoriale Daten haben ein bestimmten möglichen Werten. Beispiel:
- Die verschiedenen Tierarten in einem Nationalpark
- Die Straßennamen in einer bestimmten Stadt
- Ob es sich bei einer E-Mail um Spam handelt
- Die Fassadenfarben der Häuser
- Gruppierte Zahlen, die im Abschnitt Mit numerischen Werten Modul „Daten“
Zahlen können auch kategorische Daten sein
Echte numerische Daten sinnvoll vervielfältigt werden. Stellen Sie sich zum Beispiel eine Modell, das den Wert eines Hauses anhand seiner Fläche vorhersagt. Ein nützliches Modell zur Bewertung von Hauspreisen basiert in der Regel Hunderte Funktionen. Bei ansonsten gleichen Bedingungen wäre ein Haus mit 200 Quadratmetern Meter sind etwa doppelt so wertvoll wie ein identisches Haus mit 100 Quadratmetern. Meter.
Oft sollten Sie Merkmale darstellen, die Ganzzahlwerte als kategorische Daten anstelle numerischer Daten verwendet. Stellen Sie sich z. B. vor, Code-Feature, bei dem die Werte Ganzzahlen sind. Wenn Sie dies numerisch und nicht kategorisch gekennzeichnet ist, fragen Sie das Modell, eine numerische Beziehung zu finden, Postleitzahlen zu verknüpfen. Das heißt, Sie weisen das Modell an, die Postleitzahl 20004 als doppelt (oder halb) so groß wie ein Signal wie die Postleitzahl behandeln 10.002. Wenn Postleitzahlen als kategorische Daten dargestellt werden, kann das Modell jede Postleitzahl separat gewichten.
Codierung
Codierung bezeichnet die Umwandlung kategorischer oder anderer Daten in numerische Vektoren
mit dem ein Modell trainieren kann. Diese Konvertierung ist notwendig, da Modelle
Trainieren Sie nur mit Gleitkommawerten. Modelle können nicht anhand von Strings wie
"dog"
oder "maple"
. In diesem Modul werden verschiedene
Codierungsmethoden für kategorische Daten.