শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা

শ্রেণীবদ্ধ ডেটা সম্ভাব্য মানগুলির একটি নির্দিষ্ট সেট রয়েছে। যেমন:

  • একটি জাতীয় উদ্যানে বিভিন্ন প্রজাতির প্রাণী
  • একটি নির্দিষ্ট শহরের রাস্তার নাম
  • একটি ইমেল স্প্যাম কিনা বা না
  • যে রঙে বাড়ির বাইরের জিনিস আঁকা হয়
  • binned সংখ্যা, যা সংখ্যাসূচক ডেটা মডিউলের সাথে কাজ করা বর্ণনা করা হয়েছে

সংখ্যাগুলিও শ্রেণীবদ্ধ ডেটা হতে পারে

সত্যিকারের সংখ্যাসূচক ডেটা অর্থপূর্ণভাবে গুণ করা যেতে পারে। উদাহরণস্বরূপ, এমন একটি মডেল বিবেচনা করুন যা তার এলাকার উপর ভিত্তি করে একটি বাড়ির মূল্য ভবিষ্যদ্বাণী করে। মনে রাখবেন যে বাড়ির দাম মূল্যায়নের জন্য একটি দরকারী মডেল সাধারণত শত শত বৈশিষ্ট্যের উপর নির্ভর করে। এতে বলা হয়েছে, অন্য সব কিছু সমান হওয়ায়, 200 বর্গ মিটারের একটি বাড়ি 100 বর্গ মিটারের একটি অভিন্ন বাড়ির তুলনায় প্রায় দ্বিগুণ মূল্যবান হওয়া উচিত।

প্রায়শই, আপনার এমন বৈশিষ্ট্যগুলি উপস্থাপন করা উচিত যাতে সংখ্যাসূচক ডেটার পরিবর্তে শ্রেণীগত ডেটা হিসাবে পূর্ণসংখ্যার মান রয়েছে। উদাহরণস্বরূপ, একটি পোস্টাল কোড বৈশিষ্ট্য বিবেচনা করুন যেখানে মানগুলি পূর্ণসংখ্যা। আপনি যদি এই বৈশিষ্ট্যটিকে সুস্পষ্টভাবে না করে সংখ্যাগতভাবে উপস্থাপন করেন, আপনি মডেলটিকে বিভিন্ন পোস্টাল কোডের মধ্যে একটি সাংখ্যিক সম্পর্ক খুঁজতে বলছেন। অর্থাৎ, আপনি মডেলটিকে পোস্টাল কোড 20004-কে পোস্টাল কোড 10002-এর চেয়ে দ্বিগুণ (বা অর্ধেক) বড় সংকেত হিসাবে বিবেচনা করতে বলছেন৷ পোস্টাল কোডগুলিকে স্বতন্ত্র ডেটা হিসাবে উপস্থাপন করা মডেলটিকে প্রতিটি পৃথক পোস্টাল কোডকে আলাদাভাবে ওজন করতে দেয়৷

এনকোডিং

এনকোডিং মানে ক্যাটাগরিকাল বা অন্যান্য ডেটাকে সংখ্যাসূচক ভেক্টরে রূপান্তর করা যা একটি মডেল প্রশিক্ষণ দিতে পারে। এই রূপান্তরটি প্রয়োজনীয় কারণ মডেলগুলি শুধুমাত্র ফ্লোটিং-পয়েন্ট মানগুলিতে প্রশিক্ষণ দিতে পারে; মডেলগুলি "dog" বা "maple" এর মতো স্ট্রিংগুলিতে প্রশিক্ষণ দিতে পারে না। এই মডিউলটি শ্রেণীবদ্ধ ডেটার জন্য বিভিন্ন এনকোডিং পদ্ধতি ব্যাখ্যা করে।