加利福尼亚州住房数据集说明

许多机器学习速成课程编程练习都使用了加利福尼亚州住房数据集，其中包含 1990 年美国人口普查的数据。下表提供了数据集中每个特征的说明、数据范围和数据类型。

列标题	说明	范围*	数据类型
`longitude`	用于衡量房子向西的距离，负值越偏西	经度值范围：-180 至 +180 数据集最小值：-124.3 数据集最大值：-114.3	浮点数 64
`latitude`	一种衡量指标，表示房屋的北方高度；海拔值越大，越往北	纬度值范围：-90 至 +90 数据集最小值：32.5 数据集最大值：42.5	浮点数 64
`housingMedianAge`	某个街区内房子的年龄中位数；较小的数字是新建筑	数据集最小值：1.0 数据集最大值：52.0	浮点数 64
`totalRooms`	单个街区内的会议室总数	数据集最小值：2.0 数据集最大值：37937.0	浮点数 64
`totalBedrooms`	单个街区内的卧室总数	数据集最小值：1.0 数据集最大值：6445.0	浮点数 64
`population`	某个街区内的居住者总数	数据集最小值：3.0 数据集最大值：35682.0	浮点数 64
`households`	某个街区内的家庭（即一个家庭中的一群人）总数	数据集最小值：1.0 数据集最大值：6082.0	浮点数 64
`medianIncome`	某个街区内的家庭收入中位数（以数万美元为单位）	数据集最小值：0.5 数据集最大值：15.0	浮点数 64
`medianHouseValue`	某个街区内的家庭房屋价值中位数（以美元为单位）	数据集最小值：14999.0 数据集最大值：500001.0	浮点数 64

* 下表中的最小值和最大值是通过在加利福尼亚州住房数据集上使用 pandas.DataFrame.describe() 的练习笔记本获取的

参考

配速Kelley 和 Ronald Barry 著，《稀疏空间自动回归》，统计与概率信函，第 33 卷，第 3 期，1997 年 5 月 5 日，第 291-297 页。

论文中介绍的数据方法如下：

我们使用 1990 年人口普查中加利福尼亚的所有区块组收集了变量信息。在此示例中，街区组平均有 1425.5 个人居住在地理位置紧凑的区域内。当然，包含的地理区域与人口密度成反比。我们计算了每个块组的形心之间的距离（以纬度和经度衡量）。我们已排除报告自变量和因变量的零个条目的所有块组。最终数据包含 20640 条关于 9 个特征的观察结果。