Molti degli esercizi di programmazione di corsi di machine learning utilizzano il set di dati relativi agli alloggi in California, che contiene i dati ricavati dal censimento degli Stati Uniti del 1990. La tabella seguente fornisce descrizioni, intervalli di dati e tipi di dati per ogni caratteristica del set di dati.
Titolo della colonna | Descrizione | Intervallo* | Tipo di dati |
---|---|---|---|
longitude |
Misura il grado di ovest di una casa. Un valore più negativo è più a ovest. |
|
floating64 |
latitude |
Una misura di quanto è settentrionale il nord di una casa; un valore più alto è più a nord |
|
floating64 |
housingMedianAge |
L'età media di una casa all'interno di un isolato; un numero inferiore è un edificio più recente. |
|
floating64 |
totalRooms |
Numero totale di camere all'interno di un blocco |
|
floating64 |
totalBedrooms |
Numero totale di camere da letto all'interno di un blocco |
|
floating64 |
population |
Numero totale di persone che risiedono all'interno di un blocco |
|
floating64 |
households |
Numero totale di nuclei familiari, un gruppo di persone che risiedono all'interno di un'unità abitativa, per un blocco. |
|
floating64 |
medianIncome |
Reddito medio per nuclei familiari in un blocco di abitazioni (misurato in decine di migliaia di dollari USA) |
|
floating64 |
medianHouseValue |
Valore medio delle case per un nucleo familiare in un blocco (misurato in dollari statunitensi) |
|
floating64 |
* I valori minimo e massimo nella tabella seguente sono stati ottenuti dai blocchi note di allenamento utilizzando pandas.DataFrame.describe()
nel set di dati California Housing
Riferimento
Ritmo, R. Kelley e Ronald Barry, "Sparse Spatial Autoregressions," Statistiche e lettere di probabilità, volume 33, numero 3, 5 maggio 1997, p. 291-297.
Di seguito è riportata la metodologia dei dati descritta nell'articolo:
Abbiamo raccolto informazioni sulle variabili utilizzando tutti i gruppi di blocchi in California dal Censimento del 1990. In questo campione, un gruppo di blocco include in media 1425,5 individui che vivono in un'area geografica compatta. Naturalmente, l'area geografica inclusa varia viceversa con la densità di popolazione. Abbiamo calcolato le distanze tra i centroidi di ogni gruppo di blocchi misurati in latitudine e longitudine. Abbiamo escluso tutti i gruppi di blocco che segnalano zero voci per le variabili indipendenti e dipendenti. I dati finali contenevano 20.640 osservazioni su 9 caratteristiche.