Descrizione del set di dati relativi agli alloggi in California

Molti degli esercizi di programmazione di corsi di machine learning utilizzano il set di dati relativi agli alloggi in California, che contiene i dati ricavati dal censimento degli Stati Uniti del 1990. La tabella seguente fornisce descrizioni, intervalli di dati e tipi di dati per ogni caratteristica del set di dati.

Titolo della colonna Descrizione Intervallo* Tipo di dati
longitude Misura il grado di ovest di una casa. Un valore più negativo è più a ovest.
  • I valori di longitudine sono compresi tra -180 e +180
  • Set di dati minimo: -124,3
  • Max set di dati: -114,3
floating64
latitude Una misura di quanto è settentrionale il nord di una casa; un valore più alto è più a nord
  • I valori di latitudine vanno da -90 a + 90
  • Set di dati minimo: 32,5
  • Max set di dati: 42,5
floating64
housingMedianAge L'età media di una casa all'interno di un isolato; un numero inferiore è un edificio più recente.
  • Set di dati minimo: 1,0
  • Max set di dati: 52,0
floating64
totalRooms Numero totale di camere all'interno di un blocco
  • Set di dati minimo: 2,0
  • Limite massimo di set di dati: 37937,0
floating64
totalBedrooms Numero totale di camere da letto all'interno di un blocco
  • Set di dati minimo: 1,0
  • Limite massimo di set di dati: 6445,0
floating64
population Numero totale di persone che risiedono all'interno di un blocco
  • Set di dati minimo: 3,0
  • Set di dati max: 35682.0
floating64
households Numero totale di nuclei familiari, un gruppo di persone che risiedono all'interno di un'unità abitativa, per un blocco.
  • Set di dati minimo: 1,0
  • Set di dati max: 6082.0
floating64
medianIncome Reddito medio per nuclei familiari in un blocco di abitazioni (misurato in decine di migliaia di dollari USA)
  • Set di dati minimo: 0,5
  • Max set di dati: 15,0
floating64
medianHouseValue Valore medio delle case per un nucleo familiare in un blocco (misurato in dollari statunitensi)
  • Set di dati minimo: 14999,0
  • Set di dati max: 500001.0
floating64

* I valori minimo e massimo nella tabella seguente sono stati ottenuti dai blocchi note di allenamento utilizzando pandas.DataFrame.describe() nel set di dati California Housing

Riferimento

Ritmo, R. Kelley e Ronald Barry, "Sparse Spatial Autoregressions," Statistiche e lettere di probabilità, volume 33, numero 3, 5 maggio 1997, p. 291-297.

Di seguito è riportata la metodologia dei dati descritta nell'articolo:

Abbiamo raccolto informazioni sulle variabili utilizzando tutti i gruppi di blocchi in California dal Censimento del 1990. In questo campione, un gruppo di blocco include in media 1425,5 individui che vivono in un'area geografica compatta. Naturalmente, l'area geografica inclusa varia viceversa con la densità di popolazione. Abbiamo calcolato le distanze tra i centroidi di ogni gruppo di blocchi misurati in latitudine e longitudine. Abbiamo escluso tutti i gruppi di blocco che segnalano zero voci per le variabili indipendenti e dipendenti. I dati finali contenevano 20.640 osservazioni su 9 caratteristiche.