Commençons par revoir brièvement une idée clé du Cours d'initiation au Machine Learning. Examinez la distribution dans le graphique ci-dessous.
Figure 1: Prix des maisons et latitude
Pour la question suivante, cliquez sur la flèche de votre choix pour vérifier votre réponse:
Dans des cas tels que celui de l'exemple de latitude, vous devez diviser les latitudes en buckets pour en savoir plus sur le logement des valeurs de chaque bucket. Cette transformation de caractéristiques numériques en caractéristiques catégorielles à l'aide d'un ensemble de seuils est appelée binning (binning). Dans cet exemple de binning, les limites sont espacées de manière égale.
Figure 2: Prix des maisons et latitude, divisés en buckets
Binning de quantiles
Reprenons notre ensemble de données sur les prix des voitures avec des buckets ajoutés. Avec une caractéristique par bucket, le modèle utilise autant de capacité pour un seul exemple compris dans la plage >45000 que pour tous les exemples compris dans la plage 5000-10000. Cela semble inutile. Comment pourrions-nous améliorer cette situation ?
Figure 3: Nombre de voitures vendues à des prix différents
Le problème est que les buckets de taille égale ne capturent pas bien cette distribution. La solution consiste à créer des buckets ayant chacun le même nombre de points. Cette technique est connue sous le nom de binning des quantiles. Par exemple, la figure suivante divise les prix des voitures en buckets de quantiles. Pour obtenir le même nombre d'exemples dans chaque bucket, certains proposent une gamme de prix limitée, tandis que d'autres couvrent une gamme de prix très large.
Figure 4: Le binning des quantiles donne à chaque bucket le même nombre de voitures.
Récapitulatif du binning
Si vous choisissez de segmenter vos caractéristiques numériques, indiquez clairement comment vous définissez les limites et le type de binning que vous appliquez:
- Buckets avec des limites égales: les limites sont fixes et couvrent la même plage (par exemple, 0-4 degrés, 5-9 degrés et 10-14 degrés, ou 5 000-9 999 $, 10 000-14 999 $ et 15 000-19 999 $). Certains buckets peuvent contenir de nombreux points, tandis que d'autres peuvent en avoir peu ou aucun.
- Buckets avec des limites de quantile: chaque bucket comporte le même nombre de points. Les limites ne sont pas fixes et peuvent couvrir un intervalle de valeurs étroit ou large.