De nombreux exercices de programmation du cours d'initiation au machine learning utilisent l'ensemble de données sur l'immobilier en Californie, qui contient des données extraites du recensement américain de 1990. Le tableau suivant fournit des descriptions, des plages de données et des types de données pour chaque caractéristique de l'ensemble de données.
Titre de la colonne | Description | Plage* | Type de données |
---|---|---|---|
longitude |
Mesure de la distance à l'ouest d'une maison. Une valeur plus négative se trouve plus loin. |
|
float64 |
latitude |
Mesure de la distance nord d'une maison. Plus la valeur est élevée, plus la valeur est éloignée du nord. |
|
float64 |
housingMedianAge |
Âge médian d'une maison dans un pâté de maisons. Un nombre inférieur est un bâtiment plus récent. |
|
float64 |
totalRooms |
Nombre total de salles dans un bloc |
|
float64 |
totalBedrooms |
Nombre total de chambres dans un bloc |
|
float64 |
population |
Nombre total de personnes qui résident dans un bloc |
|
float64 |
households |
Nombre total de foyers, groupe de personnes résidant dans une maison |
|
float64 |
medianIncome |
Revenus médians des foyers dans un bloc de logements (mesurés par des dizaines de milliers de dollars américains) |
|
float64 |
medianHouseValue |
Valeur médiane des logements pour les foyers d'un bloc (en dollars américains) |
|
float64 |
* Les valeurs minimale et maximale du tableau ci-dessous ont été obtenues en utilisant les notebooks d'exercice à l'aide de pandas.DataFrame.describe()
sur l'ensemble de données sur l'immobilier en Californie.
Reference
Pace, R. Kelley et Ronald Barry, "Sparse Spatial Autoregressions", statistiques et lettres de probabilité, volume 33, numéro 3, 5 mai 1997, p. 291-297.
Voici la méthodologie appliquée aux données dans cet article:
Nous avons collecté des informations sur les variables en utilisant tous les groupes de blocs de Californie du recensement 1990. Dans cet exemple, un groupe de blocs comprend en moyenne 1 425,5 personnes vivant dans une zone géographique compacte. Naturellement, la zone géographique incluse diffère de la densité de la population. Nous avons calculé les distances entre les centroïdes de chaque groupe de blocs, telles que mesurées en latitude et en longitude. Nous avons exclu tous les groupes de blocs qui ne comportaient aucune entrée pour les variables indépendantes et dépendantes. Les données finales contiennent 20 640 observations sur 9 caractéristiques.