অনেক মেশিন লার্নিং ক্র্যাশ কোর্স প্রোগ্রামিং এক্সারসাইজ ক্যালিফোর্নিয়ার হাউজিং ডেটা সেট ব্যবহার করে, যা 1990 ইউএস সেন্সাস থেকে প্রাপ্ত ডেটা ধারণ করে। নিম্নলিখিত টেবিলটি ডেটা সেটের প্রতিটি বৈশিষ্ট্যের জন্য বর্ণনা, ডেটা ব্যাপ্তি এবং ডেটা প্রকার সরবরাহ করে।
কলাম শিরোনাম | বর্ণনা | পরিসীমা* | ডেটাটাইপ |
---|---|---|---|
longitude | একটি বাড়ি কত দূরে পশ্চিমে একটি পরিমাপ; আরও নেতিবাচক মান আরও পশ্চিমে |
| float64 |
latitude | একটি বাড়ি কতটা উত্তরে তার পরিমাপ; একটি উচ্চ মান দূরে উত্তর |
| float64 |
housingMedianAge | একটি ব্লকের মধ্যে একটি বাড়ির গড় বয়স; একটি কম সংখ্যা একটি নতুন ভবন |
| float64 |
totalRooms | একটি ব্লকের মধ্যে মোট কক্ষের সংখ্যা |
| float64 |
totalBedrooms | একটি ব্লকের মধ্যে মোট বেডরুমের সংখ্যা |
| float64 |
population | একটি ব্লকের মধ্যে বসবাসকারী মোট লোকের সংখ্যা |
| float64 |
households | একটি ব্লকের জন্য পরিবারের মোট সংখ্যা, একটি হোম ইউনিটের মধ্যে বসবাসকারী লোকদের একটি গ্রুপ |
| float64 |
medianIncome | বাড়ির একটি ব্লকের মধ্যে পরিবারের জন্য গড় আয় (হাজার হাজার মার্কিন ডলারে পরিমাপ করা হয়) |
| float64 |
medianHouseValue | একটি ব্লকের মধ্যে পরিবারের জন্য গড় বাড়ির মান (মার্কিন ডলারে পরিমাপ করা হয়) |
| float64 |
* নীচের সারণীতে সর্বনিম্ন এবং সর্বোচ্চ মানগুলি ক্যালিফোর্নিয়া হাউজিং ডেটা সেটে pandas.DataFrame.describe()
ব্যবহার করে ব্যায়াম নোটবুক থেকে প্রাপ্ত হয়েছে
রেফারেন্স
পেস, আর. কেলি, এবং রোনাল্ড ব্যারি, "স্পার্স স্পেশিয়াল অটোরিগ্রেশনস," পরিসংখ্যান এবং সম্ভাব্যতা পত্র, ভলিউম 33, সংখ্যা 3, মে 5 1997, পৃ. 291-297।
কাগজে বর্ণিত ডেটা পদ্ধতি নিম্নরূপ:
আমরা 1990 সালের আদমশুমারি থেকে ক্যালিফোর্নিয়ার সমস্ত ব্লক গ্রুপ ব্যবহার করে ভেরিয়েবলের তথ্য সংগ্রহ করেছি। এই নমুনায় একটি ব্লক গ্রুপ গড়ে 1425.5 জন ভৌগলিকভাবে কমপ্যাক্ট এলাকায় বসবাস করে। স্বাভাবিকভাবেই, অন্তর্ভুক্ত ভৌগলিক এলাকা জনসংখ্যার ঘনত্বের সাথে বিপরীতভাবে পরিবর্তিত হয়। আমরা অক্ষাংশ এবং দ্রাঘিমাংশে পরিমাপ করা প্রতিটি ব্লক গ্রুপের সেন্ট্রোয়েডগুলির মধ্যে দূরত্ব গণনা করেছি। আমরা স্বাধীন এবং নির্ভরশীল ভেরিয়েবলের জন্য শূন্য এন্ট্রি রিপোর্টিং সমস্ত ব্লক গ্রুপ বাদ দিয়েছি। চূড়ান্ত তথ্যে 9টি বৈশিষ্ট্যের উপর 20,640টি পর্যবেক্ষণ রয়েছে।