بسیاری از تمرینهای برنامهنویسی دوره تصادف یادگیری ماشین از مجموعه دادههای مسکن کالیفرنیا استفاده میکنند، که حاوی دادههایی است که از سرشماری 1990 ایالات متحده گرفته شده است. جدول زیر توضیحات، محدوده داده ها و انواع داده ها را برای هر ویژگی در مجموعه داده ارائه می دهد.
عنوان ستون | شرح | دامنه* | نوع داده |
---|---|---|---|
longitude | معیاری برای اینکه یک خانه چقدر در غرب است. مقدار منفی تر در غرب دورتر است |
| float64 |
latitude | معیاری برای اینکه خانه چقدر شمال است. مقدار بالاتر در شمال دورتر است |
| float64 |
housingMedianAge | سن متوسط یک خانه در یک بلوک؛ تعداد کمتر ساختمان جدیدتر است |
| float64 |
totalRooms | تعداد کل اتاق ها در یک بلوک |
| float64 |
totalBedrooms | تعداد کل اتاق خواب ها در یک بلوک |
| float64 |
population | تعداد کل افراد ساکن در یک بلوک |
| float64 |
households | تعداد کل خانوارها، گروهی از افراد ساکن در یک واحد خانه، برای یک بلوک |
| float64 |
medianIncome | درآمد متوسط برای خانوارهای داخل یک بلوک خانه (بر حسب ده ها هزار دلار آمریکا اندازه گیری می شود) |
| float64 |
medianHouseValue | میانگین ارزش خانه برای خانوارهای داخل یک بلوک (برحسب دلار آمریکا اندازهگیری میشود) |
| float64 |
* مقادیر حداقل و حداکثر در جدول زیر از دفترچههای تمرین با استفاده از pandas.DataFrame.describe()
در مجموعه داده کالیفرنیا Housing به دست آمد.
ارجاع
پیس، آر. کلی، و رونالد بری، «خودرگرسیون های فضایی پراکنده»، آمار و حروف احتمال، دوره 33، شماره 3، 5 مه 1997، ص. 291-297.
روش زیر روش داده ای است که در مقاله توضیح داده شده است:
ما اطلاعات مربوط به متغیرها را با استفاده از تمام گروه های بلوک در کالیفرنیا از سرشماری 1990 جمع آوری کردیم. در این نمونه یک گروه بلوکی به طور متوسط شامل 1425.5 نفر است که در یک منطقه فشرده از نظر جغرافیایی زندگی می کنند. به طور طبیعی، منطقه جغرافیایی شامل برعکس تراکم جمعیت متفاوت است. ما فواصل بین مرکز هر گروه بلوک را که در طول و عرض جغرافیایی اندازهگیری شد، محاسبه کردیم. ما تمام گروههای بلوکی را که ورودیهای صفر را برای متغیرهای مستقل و وابسته گزارش میکردند کنار گذاشتیم. داده های نهایی شامل 20640 مشاهده در 9 ویژگی بود.