ক্যালিফোর্নিয়া হাউজিং ডেটা সেটের বিবরণ

অনেক মেশিন লার্নিং ক্র্যাশ কোর্স প্রোগ্রামিং এক্সারসাইজ ক্যালিফোর্নিয়ার হাউজিং ডেটা সেট ব্যবহার করে, যা 1990 ইউএস সেন্সাস থেকে প্রাপ্ত ডেটা ধারণ করে। নিম্নলিখিত টেবিলটি ডেটা সেটের প্রতিটি বৈশিষ্ট্যের জন্য বর্ণনা, ডেটা ব্যাপ্তি এবং ডেটা প্রকার সরবরাহ করে।

কলাম শিরোনাম বর্ণনা পরিসীমা* ডেটাটাইপ
longitude একটি বাড়ি কত দূরে পশ্চিমে একটি পরিমাপ; আরও নেতিবাচক মান আরও পশ্চিমে
  • দ্রাঘিমাংশের মান -180 থেকে +180 পর্যন্ত
  • ডেটা সেট মিন: -124.3
  • ডেটা সেট সর্বাধিক: -114.3
float64
latitude একটি বাড়ি কতটা উত্তরে তার পরিমাপ; একটি উচ্চ মান দূরে উত্তর
  • অক্ষাংশের মান -90 থেকে +90 পর্যন্ত
  • ডেটা সেট মিন: 32.5
  • ডেটা সেট সর্বাধিক: 42.5
float64
housingMedianAge একটি ব্লকের মধ্যে একটি বাড়ির গড় বয়স; একটি কম সংখ্যা একটি নতুন ভবন
  • ডেটা সেট মিন: 1.0
  • ডেটা সেট সর্বাধিক: 52.0
float64
totalRooms একটি ব্লকের মধ্যে মোট কক্ষের সংখ্যা
  • ডেটা সেট মিন: 2.0
  • ডেটা সেট সর্বাধিক: 37937.0
float64
totalBedrooms একটি ব্লকের মধ্যে মোট বেডরুমের সংখ্যা
  • ডেটা সেট মিন: 1.0
  • ডেটা সেট সর্বাধিক: 6445.0
float64
population একটি ব্লকের মধ্যে বসবাসকারী মোট লোকের সংখ্যা
  • ডেটা সেট মিন: 3.0
  • ডেটা সেট সর্বাধিক: 35682.0
float64
households একটি ব্লকের জন্য পরিবারের মোট সংখ্যা, একটি হোম ইউনিটের মধ্যে বসবাসকারী লোকদের একটি গ্রুপ
  • ডেটা সেট মিন: 1.0
  • ডেটা সেট সর্বাধিক: 6082.0
float64
medianIncome বাড়ির একটি ব্লকের মধ্যে পরিবারের জন্য গড় আয় (হাজার হাজার মার্কিন ডলারে পরিমাপ করা হয়)
  • ডেটা সেট মিন: 0.5
  • ডেটা সেট সর্বাধিক: 15.0
float64
medianHouseValue একটি ব্লকের মধ্যে পরিবারের জন্য গড় বাড়ির মান (মার্কিন ডলারে পরিমাপ করা হয়)
  • ডেটা সেট মিন: 14999.0
  • ডেটা সেট সর্বাধিক: 500001.0
float64

* নীচের সারণীতে সর্বনিম্ন এবং সর্বোচ্চ মানগুলি ক্যালিফোর্নিয়া হাউজিং ডেটা সেটে pandas.DataFrame.describe() ব্যবহার করে ব্যায়াম নোটবুক থেকে প্রাপ্ত হয়েছে

রেফারেন্স

পেস, আর. কেলি, এবং রোনাল্ড ব্যারি, "স্পার্স স্পেশিয়াল অটোরিগ্রেশনস," পরিসংখ্যান এবং সম্ভাব্যতা পত্র, ভলিউম 33, সংখ্যা 3, মে 5 1997, পৃ. 291-297।

কাগজে বর্ণিত ডেটা পদ্ধতি নিম্নরূপ:

আমরা 1990 সালের আদমশুমারি থেকে ক্যালিফোর্নিয়ার সমস্ত ব্লক গ্রুপ ব্যবহার করে ভেরিয়েবলের তথ্য সংগ্রহ করেছি। এই নমুনায় একটি ব্লক গ্রুপ গড়ে 1425.5 জন ভৌগলিকভাবে কমপ্যাক্ট এলাকায় বসবাস করে। স্বাভাবিকভাবেই, অন্তর্ভুক্ত ভৌগলিক এলাকা জনসংখ্যার ঘনত্বের সাথে বিপরীতভাবে পরিবর্তিত হয়। আমরা অক্ষাংশ এবং দ্রাঘিমাংশে পরিমাপ করা প্রতিটি ব্লক গ্রুপের সেন্ট্রোয়েডগুলির মধ্যে দূরত্ব গণনা করেছি। আমরা স্বাধীন এবং নির্ভরশীল ভেরিয়েবলের জন্য শূন্য এন্ট্রি রিপোর্টিং সমস্ত ব্লক গ্রুপ বাদ দিয়েছি। চূড়ান্ত তথ্যে 9টি বৈশিষ্ট্যের উপর 20,640টি পর্যবেক্ষণ রয়েছে।