Beginnen wir mit einer kurzen Übersicht über eine wichtige Idee aus dem Machine Learning Crash Course. Sehen Sie sich dazu die Verteilung im Diagramm unten an.
Abbildung 1: Hauspreise im Vergleich zum Breitengrad
Klicken Sie bei der folgenden Frage auf den gewünschten Pfeil, um Ihre Antwort zu prüfen:
In Fällen wie im Breitengradbeispiel müssen Sie die Breitengrade in Buckets aufteilen, um etwas anderes über die Immobilienwerte für jeden Bucket zu erfahren. Diese Umwandlung von numerischen Merkmalen in kategoriale Merkmale mithilfe einer Reihe von Grenzwerten wird als Bucketing (auch als „Bining“ bezeichnet) bezeichnet. In diesem Bucketing-Beispiel sind die Grenzen gleich groß.
Abbildung 2: Hauspreise im Vergleich zu Breitengrad, jetzt in Kategorien unterteilt
Quantil-Bucketing
Schauen wir uns unser Dataset mit Fahrzeugpreisen noch einmal mit den hinzugefügten Buckets an. Mit einem Merkmal pro Bucket verwendet das Modell so viel Kapazität für ein einzelnes Beispiel im Bereich von 45.000 bis zu 5.000 bis 10.000. Das scheint Verschwendung. Wie könnten wir diese Situation verbessern?
Abbildung 3: Anzahl der Autos, die zu unterschiedlichen Preisen verkauft wurden
Das Problem ist, dass Buckets mit gleichmäßigem Abstand diese Verteilung nicht gut erfassen. Die Lösung besteht darin, Buckets zu erstellen, die beide die gleiche Anzahl von Punkten haben. Dieses Verfahren wird als Quantil-Bucketing bezeichnet. In der folgenden Abbildung werden beispielsweise die Fahrzeugpreise in Quantilgruppen aufgeteilt. Damit in jedem Bucket die gleiche Anzahl von Beispielen zu sehen ist, umfassen einige Buckets einen engen Preisbereich, während andere einen sehr breiten Preisbereich umfassen.
Abbildung 4: Beim Quantil-Bucketing erhält jeder Bucket ungefähr die gleiche Anzahl von Autos.
Zusammenfassung zu Buckets
Wenn Sie Ihre numerischen Features in Buckets aufteilen möchten, müssen Sie klar festlegen, wie Sie die Grenzen festlegen und welchen Bucket-Typ Sie anwenden:
- Buckets mit gleichmäßigen Grenzen: Die Grenzen sind fest und umfassen denselben Bereich (z. B. 0–4 Grad, 5–9 Grad und 10–14 Grad oder 5.000–9.999 $, 10.000–14.999 $ und 15.000–19.999 $). Einige Buckets können viele Punkte enthalten, andere nur wenige oder keine.
- Buckets mit Quantilgrenzen: Jeder Bucket hat die gleiche Anzahl von Punkten. Die Grenzen sind nicht festgelegt und können einen engen oder breiten Wertebereich umfassen.