加利福尼亚州住房数据集说明

许多机器学习速成课程编程练习都使用了加利福尼亚州住房数据集,其中包含 1990 年美国人口普查的数据。下表提供了数据集中每个特征的说明、数据范围和数据类型。

列标题 说明 范围* 数据类型
longitude 用于衡量房子向西的距离,负值越偏西
  • 经度值范围:-180 至 +180
  • 数据集最小值:-124.3
  • 数据集最大值:-114.3
浮点数 64
latitude 一种衡量指标,表示房屋的北方高度;海拔值越大,越往北
  • 纬度值范围:-90 至 +90
  • 数据集最小值:32.5
  • 数据集最大值:42.5
浮点数 64
housingMedianAge 某个街区内房子的年龄中位数;较小的数字是新建筑
  • 数据集最小值:1.0
  • 数据集最大值:52.0
浮点数 64
totalRooms 单个街区内的会议室总数
  • 数据集最小值:2.0
  • 数据集最大值:37937.0
浮点数 64
totalBedrooms 单个街区内的卧室总数
  • 数据集最小值:1.0
  • 数据集最大值:6445.0
浮点数 64
population 某个街区内的居住者总数
  • 数据集最小值:3.0
  • 数据集最大值:35682.0
浮点数 64
households 某个街区内的家庭(即一个家庭中的一群人)总数
  • 数据集最小值:1.0
  • 数据集最大值:6082.0
浮点数 64
medianIncome 某个街区内的家庭收入中位数(以数万美元为单位)
  • 数据集最小值:0.5
  • 数据集最大值:15.0
浮点数 64
medianHouseValue 某个街区内的家庭房屋价值中位数(以美元为单位)
  • 数据集最小值:14999.0
  • 数据集最大值:500001.0
浮点数 64

* 下表中的最小值和最大值是通过在加利福尼亚州住房数据集上使用 pandas.DataFrame.describe() 的练习笔记本获取的

参考

配速Kelley 和 Ronald Barry 著,《稀疏空间自动回归》,统计与概率信函,第 33 卷,第 3 期,1997 年 5 月 5 日,第 291-297 页。

论文中介绍的数据方法如下:

我们使用 1990 年人口普查中加利福尼亚的所有区块组收集了变量信息。在此示例中,街区组平均有 1425.5 个人居住在地理位置紧凑的区域内。当然,包含的地理区域与人口密度成反比。我们计算了每个块组的形心之间的距离(以纬度和经度衡量)。我们已排除报告自变量和因变量的零个条目的所有块组。最终数据包含 20640 条关于 9 个特征的观察结果。