মেশিন লার্নিং ক্র্যাশ কোর্সের একটি নতুন এবং উন্নত সংস্করণ আসছে আগস্ট 2024 এ। সাথে থাকুন!

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

ক্যালিফোর্নিয়া হাউজিং ডেটা সেটের বিবরণ

অনেক মেশিন লার্নিং ক্র্যাশ কোর্স প্রোগ্রামিং এক্সারসাইজ ক্যালিফোর্নিয়ার হাউজিং ডেটা সেট ব্যবহার করে, যা 1990 ইউএস সেন্সাস থেকে প্রাপ্ত ডেটা ধারণ করে। নিম্নলিখিত টেবিলটি ডেটা সেটের প্রতিটি বৈশিষ্ট্যের জন্য বর্ণনা, ডেটা ব্যাপ্তি এবং ডেটা প্রকার সরবরাহ করে।

কলাম শিরোনাম	বর্ণনা	পরিসীমা*	ডেটাটাইপ
`longitude`	একটি বাড়ি কত দূরে পশ্চিমে একটি পরিমাপ; আরও নেতিবাচক মান আরও পশ্চিমে	দ্রাঘিমাংশের মান -180 থেকে +180 পর্যন্ত ডেটা সেট মিন: -124.3 ডেটা সেট সর্বাধিক: -114.3	float64
`latitude`	একটি বাড়ি কতটা উত্তরে তার পরিমাপ; একটি উচ্চ মান দূরে উত্তর	অক্ষাংশের মান -90 থেকে +90 পর্যন্ত ডেটা সেট মিন: 32.5 ডেটা সেট সর্বাধিক: 42.5	float64
`housingMedianAge`	একটি ব্লকের মধ্যে একটি বাড়ির গড় বয়স; একটি কম সংখ্যা একটি নতুন ভবন	ডেটা সেট মিন: 1.0 ডেটা সেট সর্বাধিক: 52.0	float64
`totalRooms`	একটি ব্লকের মধ্যে মোট কক্ষের সংখ্যা	ডেটা সেট মিন: 2.0 ডেটা সেট সর্বাধিক: 37937.0	float64
`totalBedrooms`	একটি ব্লকের মধ্যে মোট বেডরুমের সংখ্যা	ডেটা সেট মিন: 1.0 ডেটা সেট সর্বাধিক: 6445.0	float64
`population`	একটি ব্লকের মধ্যে বসবাসকারী মোট লোকের সংখ্যা	ডেটা সেট মিন: 3.0 ডেটা সেট সর্বাধিক: 35682.0	float64
`households`	একটি ব্লকের জন্য পরিবারের মোট সংখ্যা, একটি হোম ইউনিটের মধ্যে বসবাসকারী লোকদের একটি গ্রুপ	ডেটা সেট মিন: 1.0 ডেটা সেট সর্বাধিক: 6082.0	float64
`medianIncome`	বাড়ির একটি ব্লকের মধ্যে পরিবারের জন্য গড় আয় (হাজার হাজার মার্কিন ডলারে পরিমাপ করা হয়)	ডেটা সেট মিন: 0.5 ডেটা সেট সর্বাধিক: 15.0	float64
`medianHouseValue`	একটি ব্লকের মধ্যে পরিবারের জন্য গড় বাড়ির মান (মার্কিন ডলারে পরিমাপ করা হয়)	ডেটা সেট মিন: 14999.0 ডেটা সেট সর্বাধিক: 500001.0	float64

* নীচের সারণীতে সর্বনিম্ন এবং সর্বোচ্চ মানগুলি ক্যালিফোর্নিয়া হাউজিং ডেটা সেটে pandas.DataFrame.describe() ব্যবহার করে ব্যায়াম নোটবুক থেকে প্রাপ্ত হয়েছে

রেফারেন্স

পেস, আর. কেলি, এবং রোনাল্ড ব্যারি, "স্পার্স স্পেশিয়াল অটোরিগ্রেশনস," পরিসংখ্যান এবং সম্ভাব্যতা পত্র, ভলিউম 33, সংখ্যা 3, মে 5 1997, পৃ. 291-297।

কাগজে বর্ণিত ডেটা পদ্ধতি নিম্নরূপ:

আমরা 1990 সালের আদমশুমারি থেকে ক্যালিফোর্নিয়ার সমস্ত ব্লক গ্রুপ ব্যবহার করে ভেরিয়েবলের তথ্য সংগ্রহ করেছি। এই নমুনায় একটি ব্লক গ্রুপ গড়ে 1425.5 জন ভৌগলিকভাবে কমপ্যাক্ট এলাকায় বসবাস করে। স্বাভাবিকভাবেই, অন্তর্ভুক্ত ভৌগলিক এলাকা জনসংখ্যার ঘনত্বের সাথে বিপরীতভাবে পরিবর্তিত হয়। আমরা অক্ষাংশ এবং দ্রাঘিমাংশে পরিমাপ করা প্রতিটি ব্লক গ্রুপের সেন্ট্রোয়েডগুলির মধ্যে দূরত্ব গণনা করেছি। আমরা স্বাধীন এবং নির্ভরশীল ভেরিয়েবলের জন্য শূন্য এন্ট্রি রিপোর্টিং সমস্ত ব্লক গ্রুপ বাদ দিয়েছি। চূড়ান্ত তথ্যে 9টি বৈশিষ্ট্যের উপর 20,640টি পর্যবেক্ষণ রয়েছে।