Fragmentation

Commençons par revoir brièvement une idée clé du Cours d'initiation au Machine Learning. Examinez la distribution dans le graphique ci-dessous.

Graphique des maisons par latitude. Le graphique est très irrégulier, avec des taux de batterie autour de 36 degrés de latitude, et d'énormes pics autour de 34 degrés de latitude. Figure 1: Prix des maisons et latitude

 

Pour la question suivante, cliquez sur la flèche de votre choix pour vérifier votre réponse:

Prenons l'exemple de la figure 1. Si vous pensez que la latitude pourrait être un bon indicateur de la valeur des logements, pensez-vous que la latitude devrait être une valeur à virgule flottante ? Pourquoi ? Supposons qu'il s'agisse d'un modèle linéaire.
Oui. Si la latitude est une valeur à virgule flottante de l'ensemble de données, vous ne devez pas la modifier.
Si vous alimentez votre réseau avec ces valeurs à virgule flottante, il tente d'apprendre une relation linéaire entre la caractéristique et l'étiquette. Cependant, une relation linéaire n'est pas susceptible d'être basée sur la latitude. Une augmentation d'un degré de la latitude (de 34 à 35 degrés, par exemple) peut entraîner un certain degré de variation dans la sortie du modèle, tandis qu'une augmentation d'un degré différente (de 35 à 36 degrés, par exemple) peut entraîner une variation différente. Comportement non linéaire
Non : il n'y a pas de relation linéaire entre la latitude et les valeurs immobilières.
Vous pensez que des latitudes et des valeurs immobilières individuelles sont liées, mais la relation n'est pas linéaire.

Dans des cas tels que celui de l'exemple de latitude, vous devez diviser les latitudes en buckets pour en savoir plus sur le logement des valeurs de chaque bucket. Cette transformation de caractéristiques numériques en caractéristiques catégorielles à l'aide d'un ensemble de seuils est appelée binning (binning). Dans cet exemple de binning, les limites sont espacées de manière égale.

La même courbe de latitude/prix des logements que la précédente. Cette fois, le graphique est divisé en 11 bins ;

 

Figure 2: Prix des maisons et latitude, divisés en buckets

Binning de quantiles

Reprenons notre ensemble de données sur les prix des voitures avec des buckets ajoutés. Avec une caractéristique par bucket, le modèle utilise autant de capacité pour un seul exemple compris dans la plage >45000 que pour tous les exemples compris dans la plage 5000-10000. Cela semble inutile. Comment pourrions-nous améliorer cette situation ?

Graphique du prix d'une voiture par nombre de voitures vendues à ce prix. Le graphique est divisé en 10 buckets de taille égale avec une plage de 5 000 (prix de la voiture). Les trois premiers buckets contiennent de nombreux exemples, mais les sept derniers buckets en contiennent très peu.

Figure 3: Nombre de voitures vendues à des prix différents

 

Le problème est que les buckets de taille égale ne capturent pas bien cette distribution. La solution consiste à créer des buckets ayant chacun le même nombre de points. Cette technique est connue sous le nom de binning des quantiles. Par exemple, la figure suivante divise les prix des voitures en buckets de quantiles. Pour obtenir le même nombre d'exemples dans chaque bucket, certains proposent une gamme de prix limitée, tandis que d'autres couvrent une gamme de prix très large.

Identique à la figure 3, sauf pour les buckets de quantiles. Autrement dit, les buckets ont maintenant des tailles différentes. Le plus petit bucket a une fourchette d'environ 1 000 dollars, tandis que le plus grand bucket a une fourchette d'environ 25 000 dollars.
Le nombre de voitures dans chaque bucket est désormais à peu près identique.

Figure 4: Le binning des quantiles donne à chaque bucket le même nombre de voitures.

Récapitulatif du binning

Si vous choisissez de segmenter vos caractéristiques numériques, indiquez clairement comment vous définissez les limites et le type de binning que vous appliquez:

  • Buckets avec des limites égales: les limites sont fixes et couvrent la même plage (par exemple, 0-4 degrés, 5-9 degrés et 10-14 degrés, ou 5 000-9 999 $, 10 000-14 999 $ et 15 000-19 999 $). Certains buckets peuvent contenir de nombreux points, tandis que d'autres peuvent en avoir peu ou aucun.
  • Buckets avec des limites de quantile: chaque bucket comporte le même nombre de points. Les limites ne sont pas fixes et peuvent couvrir un intervalle de valeurs étroit ou large.