یک نسخه جدید و بهبودیافته از Machine Learning Crash Course در آگوست 2024 عرضه می شود. گوش به زنگ باشید!

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

شرح مجموعه داده های مسکن کالیفرنیا

بسیاری از تمرین‌های برنامه‌نویسی دوره تصادف یادگیری ماشین از مجموعه داده‌های مسکن کالیفرنیا استفاده می‌کنند، که حاوی داده‌هایی است که از سرشماری 1990 ایالات متحده گرفته شده است. جدول زیر توضیحات، محدوده داده ها و انواع داده ها را برای هر ویژگی در مجموعه داده ارائه می دهد.

عنوان ستون	شرح	دامنه*	نوع داده
`longitude`	معیاری برای اینکه یک خانه چقدر در غرب است. مقدار منفی تر در غرب دورتر است	مقادیر طول جغرافیایی از 180- تا 180+ متغیر است حداقل مجموعه داده ها: -124.3 حداکثر مجموعه داده ها: -114.3	float64
`latitude`	معیاری برای اینکه خانه چقدر شمال است. مقدار بالاتر در شمال دورتر است	مقادیر عرض جغرافیایی از 90- تا 90+ متغیر است حداقل مجموعه داده ها: 32.5 حداکثر مجموعه داده: 42.5	float64
`housingMedianAge`	سن متوسط یک خانه در یک بلوک؛ تعداد کمتر ساختمان جدیدتر است	حداقل مجموعه داده: 1.0 حداکثر مجموعه داده: 52.0	float64
`totalRooms`	تعداد کل اتاق ها در یک بلوک	حداقل مجموعه داده: 2.0 حداکثر مجموعه داده: 37937.0	float64
`totalBedrooms`	تعداد کل اتاق خواب ها در یک بلوک	حداقل مجموعه داده: 1.0 حداکثر مجموعه داده: 6445.0	float64
`population`	تعداد کل افراد ساکن در یک بلوک	حداقل مجموعه داده: 3.0 حداکثر مجموعه داده: 35682.0	float64
`households`	تعداد کل خانوارها، گروهی از افراد ساکن در یک واحد خانه، برای یک بلوک	حداقل مجموعه داده: 1.0 حداکثر مجموعه داده: 6082.0	float64
`medianIncome`	درآمد متوسط برای خانوارهای داخل یک بلوک خانه (بر حسب ده ها هزار دلار آمریکا اندازه گیری می شود)	حداقل مجموعه داده: 0.5 حداکثر مجموعه داده: 15.0	float64
`medianHouseValue`	میانگین ارزش خانه برای خانوارهای داخل یک بلوک (برحسب دلار آمریکا اندازه‌گیری می‌شود)	حداقل مجموعه داده: 14999.0 حداکثر مجموعه داده: 500001.0	float64

* مقادیر حداقل و حداکثر در جدول زیر از دفترچه‌های تمرین با استفاده از pandas.DataFrame.describe() در مجموعه داده کالیفرنیا Housing به دست آمد.

ارجاع

پیس، آر. کلی، و رونالد بری، «خودرگرسیون های فضایی پراکنده»، آمار و حروف احتمال، دوره 33، شماره 3، 5 مه 1997، ص. 291-297.

روش زیر روش داده ای است که در مقاله توضیح داده شده است:

ما اطلاعات مربوط به متغیرها را با استفاده از تمام گروه های بلوک در کالیفرنیا از سرشماری 1990 جمع آوری کردیم. در این نمونه یک گروه بلوکی به طور متوسط شامل 1425.5 نفر است که در یک منطقه فشرده از نظر جغرافیایی زندگی می کنند. به طور طبیعی، منطقه جغرافیایی شامل برعکس تراکم جمعیت متفاوت است. ما فواصل بین مرکز هر گروه بلوک را که در طول و عرض جغرافیایی اندازه‌گیری شد، محاسبه کردیم. ما تمام گروه‌های بلوکی را که ورودی‌های صفر را برای متغیرهای مستقل و وابسته گزارش می‌کردند کنار گذاشتیم. داده های نهایی شامل 20640 مشاهده در 9 ویژگی بود.