โปรแกรมหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงจํานวนมากใช้ชุดข้อมูลของรัฐแคลิฟอร์เนีย ซึ่งมีข้อมูลมาจากสํามะโนประชากรของสหรัฐฯ ในปี 1990 ตารางต่อไปนี้อธิบายคําอธิบาย ช่วงข้อมูล และประเภทข้อมูลของฟีเจอร์แต่ละรายการในชุดข้อมูล
ชื่อคอลัมน์ | คำอธิบาย | ช่วง* | ประเภทข้อมูล |
---|---|---|---|
longitude |
การวัดระยะห่างของบ้านฝั่งตะวันตก ยิ่งค่าติดลบอยู่ไกลไปทางตะวันตก |
|
ทศนิยม 44 |
latitude |
การวัดระยะทางของทิศเหนือของบ้าน ค่าที่สูงกว่าจะอยู่ทางเหนือ |
|
ทศนิยม 44 |
housingMedianAge |
อายุมัธยฐานของบ้านภายในบล็อก ตัวเลขต่ําคืออาคารที่ใหม่กว่า |
|
ทศนิยม 44 |
totalRooms |
จํานวนห้องแชททั้งหมดภายในบล็อก 1 ห้อง |
|
ทศนิยม 44 |
totalBedrooms |
จํานวนห้องนอนทั้งหมดภายใน 1 บล็อก |
|
ทศนิยม 44 |
population |
จํานวนผู้คนทั้งหมดที่อาศัยอยู่ในบล็อก |
|
ทศนิยม 44 |
households |
จํานวนครัวเรือนทั้งหมด กลุ่มบุคคลที่อาศัยอยู่ในบ้าน สําหรับบล็อก |
|
ทศนิยม 44 |
medianIncome |
รายได้มัธยฐานของครัวเรือนภายในบล็อกบ้าน (วัดเป็นเงินหลายหมื่นดอลลาร์สหรัฐ) |
|
ทศนิยม 44 |
medianHouseValue |
มูลค่าบ้านเฉลี่ยสําหรับครัวเรือนภายในบล็อก (วัดเป็นดอลลาร์สหรัฐ) |
|
ทศนิยม 44 |
* ค่าต่ําสุดและสูงสุดในตารางด้านล่างมาจากสมุดบันทึกการออกกําลังกาย
โดยใช้ pandas.DataFrame.describe()
ในชุดข้อมูลที่พักอาศัยของรัฐแคลิฟอร์เนีย
ข้อมูลอ้างอิง
เพซ, อาร์. Kelley and Ronald Barry, "Sparse Spatial Autoregressions," สถิติและจดหมายความน่าจะเป็น ฉบับที่ 33 หมายเลข 3 วันที่ 5 พฤษภาคม 1997 หน้า 291-297
หลักการข้อมูลที่อธิบายไว้ในบทความมีดังต่อไปนี้
เรารวบรวมข้อมูลเกี่ยวกับตัวแปรโดยใช้กลุ่มการบล็อกทั้งหมดในแคลิฟอร์เนียจากสํามะโนประชากรช่วง 1990 ในตัวอย่างนี้ กลุ่มบล็อกโดยเฉลี่ยประกอบด้วย 1425.5 คนที่อาศัยอยู่ในพื้นที่ขนาดเล็กทางภูมิศาสตร์ โดยปกติ พื้นที่ทางภูมิศาสตร์ที่มีจะแตกต่างกันออกไปตามความหนาแน่นของประชากร เราคํานวณระยะทางระหว่างศูนย์เซนติกของกลุ่มการบล็อกแต่ละกลุ่ม เมื่อมีการวัดละติจูดและลองจิจูด เรายกเว้นรายการทั้งหมดที่บล็อกกลุ่มการรายงานเป็น 0 สําหรับตัวแปรอิสระและตัวแปรอิสระ ข้อมูลสุดท้ายมีการสังเกตการณ์ 20,640 รายการเกี่ยวกับลักษณะเฉพาะ 9 รายการ