機械学習集中講座の多くでは、カリフォルニア州のハウジングのデータセットが使用されます。このデータセットには、1990 年の米国国勢調査から得られたデータが含まれています。次の表に、データセット内の各特徴の説明、データ範囲、データ型を示します。
列のタイトル | 説明 | 範囲* | Datatype |
---|---|---|---|
longitude |
家がどれだけ西にあるかを示す尺度。負の値が大きいほど西である |
|
float64 |
latitude |
住宅の北がどのくらい離れているかを示します。値が大きいほど北になります。 |
|
float64 |
housingMedianAge |
1 区画内にある住宅の年数中央値。低いほど新しい建築物である |
|
float64 |
totalRooms |
1 ブロックあたりの部屋の合計数 |
|
float64 |
totalBedrooms |
1 つのブロック内のベッドルームの合計数 |
|
float64 |
population |
あるブロックに居住する人の合計数 |
|
float64 |
households |
1 つのブロックに属する 1 つの家に属するメンバーのグループの総数(世帯数)です |
|
float64 |
medianIncome |
家のブロック内での世帯収入の中央値(数万米ドルで測定) |
|
float64 |
medianHouseValue |
ブロック内にある世帯の住宅価値の中央値(米ドルで測定) |
|
float64 |
* 以下の表の最小値と最大値は、カリフォルニア ハウジングのデータセットで pandas.DataFrame.describe()
を使用してエクササイズ ノートブックから取得されたものです。
Reference
Pace、R. Kelley、Ronald Barry、「Sparse Spatial Auto 回帰」、Statistics and Probability Letter、第 33 巻、3 号、1997 年 5 月 5 日、291 ~ 297 ページ。
この論文で説明したデータ手法は次のとおりです。
1990 年の国勢調査から、カリフォルニア州の全ブロック グループを使用して変数に関する情報を収集しました。このサンプルでは、平均的に 1,425.5 個の地域に住むブロック グループに 1,425.5 人の個人が住んでいます。本来含まれる地域は、人口密度に反比例します。緯度と経度で測定した各ブロック グループのセントロイド間の距離を計算しました。独立変数と従属変数についてゼロのエントリを報告するすべてのブロック グループを除外しました。最終的なデータには、9 つの特性に関する 20,640 件の観測が含まれていました。