شرح مجموعه داده های مسکن کالیفرنیا

بسیاری از تمرین‌های برنامه‌نویسی دوره تصادف یادگیری ماشین از مجموعه داده‌های مسکن کالیفرنیا استفاده می‌کنند، که حاوی داده‌هایی است که از سرشماری 1990 ایالات متحده گرفته شده است. جدول زیر توضیحات، محدوده داده ها و انواع داده ها را برای هر ویژگی در مجموعه داده ارائه می دهد.

عنوان ستون شرح دامنه* نوع داده
longitude معیاری برای اینکه یک خانه چقدر در غرب است. مقدار منفی تر در غرب دورتر است
  • مقادیر طول جغرافیایی از 180- تا 180+ متغیر است
  • حداقل مجموعه داده ها: -124.3
  • حداکثر مجموعه داده ها: -114.3
float64
latitude معیاری برای اینکه خانه چقدر شمال است. مقدار بالاتر در شمال دورتر است
  • مقادیر عرض جغرافیایی از 90- تا 90+ متغیر است
  • حداقل مجموعه داده ها: 32.5
  • حداکثر مجموعه داده: 42.5
float64
housingMedianAge سن متوسط ​​یک خانه در یک بلوک؛ تعداد کمتر ساختمان جدیدتر است
  • حداقل مجموعه داده: 1.0
  • حداکثر مجموعه داده: 52.0
float64
totalRooms تعداد کل اتاق ها در یک بلوک
  • حداقل مجموعه داده: 2.0
  • حداکثر مجموعه داده: 37937.0
float64
totalBedrooms تعداد کل اتاق خواب ها در یک بلوک
  • حداقل مجموعه داده: 1.0
  • حداکثر مجموعه داده: 6445.0
float64
population تعداد کل افراد ساکن در یک بلوک
  • حداقل مجموعه داده: 3.0
  • حداکثر مجموعه داده: 35682.0
float64
households تعداد کل خانوارها، گروهی از افراد ساکن در یک واحد خانه، برای یک بلوک
  • حداقل مجموعه داده: 1.0
  • حداکثر مجموعه داده: 6082.0
float64
medianIncome درآمد متوسط ​​برای خانوارهای داخل یک بلوک خانه (بر حسب ده ها هزار دلار آمریکا اندازه گیری می شود)
  • حداقل مجموعه داده: 0.5
  • حداکثر مجموعه داده: 15.0
float64
medianHouseValue میانگین ارزش خانه برای خانوارهای داخل یک بلوک (برحسب دلار آمریکا اندازه‌گیری می‌شود)
  • حداقل مجموعه داده: 14999.0
  • حداکثر مجموعه داده: 500001.0
float64

* مقادیر حداقل و حداکثر در جدول زیر از دفترچه‌های تمرین با استفاده از pandas.DataFrame.describe() در مجموعه داده کالیفرنیا Housing به دست آمد.

ارجاع

پیس، آر. کلی، و رونالد بری، «خودرگرسیون های فضایی پراکنده»، آمار و حروف احتمال، دوره 33، شماره 3، 5 مه 1997، ص. 291-297.

روش زیر روش داده ای است که در مقاله توضیح داده شده است:

ما اطلاعات مربوط به متغیرها را با استفاده از تمام گروه های بلوک در کالیفرنیا از سرشماری 1990 جمع آوری کردیم. در این نمونه یک گروه بلوکی به طور متوسط ​​شامل 1425.5 نفر است که در یک منطقه فشرده از نظر جغرافیایی زندگی می کنند. به طور طبیعی، منطقه جغرافیایی شامل برعکس تراکم جمعیت متفاوت است. ما فواصل بین مرکز هر گروه بلوک را که در طول و عرض جغرافیایی اندازه‌گیری شد، محاسبه کردیم. ما تمام گروه‌های بلوکی را که ورودی‌های صفر را برای متغیرهای مستقل و وابسته گزارش می‌کردند کنار گذاشتیم. داده های نهایی شامل 20640 مشاهده در 9 ویژگی بود.