Croisements de caractéristiques: testez vos connaissances

Explorez les options ci-dessous.

Les prix des logements en Californie sont très différents. Supposons que vous deviez créer un modèle prédictif pour les prix des logements. Quels ensembles ou croisements de caractéristiques pourraient apprendre les relations spécifiques à une ville entre roomsPerPerson et le prix des logements ?
Trois caractéristiques binaires distinctes: [binned latitude], [binned longitude] et [binned roomsPerPerson]
Le binning est bon pour le modèle, car il permet d'apprendre des relations non linéaires au sein d'une seule caractéristique. Cependant, une ville existe dans plusieurs dimensions. Pour apprendre les relations propres à une ville, vous devez donc croiser la latitude et la longitude.
Un croisement de caractéristiques : [latitude X longitude X roomsPerPerson]
Dans cet exemple, le croisement de caractéristiques à valeur réelle n'est pas une bonne idée. Le fait de croiser la valeur réelle de la latitude avec roomsPerPerson, par exemple, permet de modifier 10% d'une caractéristique (par exemple, la latitude) à une modification de 10% dans l'autre caractéristique (roomsPerPerson, par exemple).
Un croisement de caractéristiques: [binned latitude X binned longitude X binned roomsPerPerson]
Le croisement de la latitude avec la longitude permet au modèle d'apprendre les effets de la variable roomPerPerson pour une ville donnée. Le binning empêche qu'un changement de latitude génère le même résultat qu'un changement de longitude. Selon la précision des classes, ce croisement de caractéristiques pourrait apprendre des effets propres à une ville, à un quartier, voire à un bloc.
Deux croisements de caractéristiques : [binned latitude X binned roomsPerPerson] et [binned longitude X binned roomsPerPerson]
Le binning est une bonne idée. Toutefois, une ville étant la conjonction de la latitude et de la longitude, des croisements de caractéristiques distincts empêchent le modèle d'apprendre les prix propres à la ville.