许多机器学习速成课程编程练习都使用了加利福尼亚州住房数据集,其中包含 1990 年美国人口普查的数据。下表提供了数据集中每个特征的说明、数据范围和数据类型。
列标题 | 说明 | 范围* | 数据类型 |
---|---|---|---|
longitude |
用于衡量房子向西的距离,负值越偏西 |
|
浮点数 64 |
latitude |
一种衡量指标,表示房屋的北方高度;海拔值越大,越往北 |
|
浮点数 64 |
housingMedianAge |
某个街区内房子的年龄中位数;较小的数字是新建筑 |
|
浮点数 64 |
totalRooms |
单个街区内的会议室总数 |
|
浮点数 64 |
totalBedrooms |
单个街区内的卧室总数 |
|
浮点数 64 |
population |
某个街区内的居住者总数 |
|
浮点数 64 |
households |
某个街区内的家庭(即一个家庭中的一群人)总数 |
|
浮点数 64 |
medianIncome |
某个街区内的家庭收入中位数(以数万美元为单位) |
|
浮点数 64 |
medianHouseValue |
某个街区内的家庭房屋价值中位数(以美元为单位) |
|
浮点数 64 |
* 下表中的最小值和最大值是通过在加利福尼亚州住房数据集上使用 pandas.DataFrame.describe()
的练习笔记本获取的
参考
配速Kelley 和 Ronald Barry 著,《稀疏空间自动回归》,统计与概率信函,第 33 卷,第 3 期,1997 年 5 月 5 日,第 291-297 页。
论文中介绍的数据方法如下:
我们使用 1990 年人口普查中加利福尼亚的所有区块组收集了变量信息。在此示例中,街区组平均有 1425.5 个人居住在地理位置紧凑的区域内。当然,包含的地理区域与人口密度成反比。我们计算了每个块组的形心之间的距离(以纬度和经度衡量)。我们已排除报告自变量和因变量的零个条目的所有块组。最终数据包含 20640 条关于 9 个特征的观察结果。