کار با داده های طبقه بندی شده

داده های طبقه بندی دارای مجموعه خاصی از مقادیر ممکن است. مثلا:

  • گونه های مختلف حیوانات در یک پارک ملی
  • نام خیابان های یک شهر خاص
  • هرزنامه بودن یا نبودن ایمیل
  • رنگ هایی که نمای بیرونی خانه ها رنگ می شود
  • اعداد Binned که در ماژول Working with Numerical Data توضیح داده شده است

اعداد همچنین می توانند داده های طبقه بندی شوند

داده های عددی واقعی را می توان به طور معناداری ضرب کرد. به عنوان مثال، مدلی را در نظر بگیرید که ارزش یک خانه را بر اساس مساحت آن پیش بینی می کند. توجه داشته باشید که یک مدل مفید برای ارزیابی قیمت مسکن معمولاً بر صدها ویژگی متکی است. با این حال، اگر همه چیز برابر باشد، یک خانه 200 متر مربعی باید تقریباً دو برابر یک خانه 100 متر مربعی ارزش داشته باشد.

اغلب، شما باید ویژگی هایی را که حاوی مقادیر صحیح هستند به عنوان داده های طبقه بندی به جای داده های عددی نشان دهید. به عنوان مثال، یک ویژگی کد پستی را در نظر بگیرید که در آن مقادیر اعداد صحیح هستند. اگر این ویژگی را به‌جای طبقه‌بندی به صورت عددی نشان می‌دهید، از مدل می‌خواهید که یک رابطه عددی بین کدهای پستی مختلف پیدا کند. یعنی شما به مدل می‌گویید که کد پستی 20004 را دو برابر (یا نصف) سیگنال بزرگ‌تر از کد پستی 10002 در نظر بگیرد. نمایش کدهای پستی به عنوان داده‌های طبقه‌بندی به مدل اجازه می‌دهد هر کد پستی جداگانه را وزن کند.

رمزگذاری

رمزگذاری به معنای تبدیل داده های طبقه بندی شده یا سایر داده ها به بردارهای عددی است که یک مدل می تواند بر روی آنها آموزش دهد. این تبدیل ضروری است زیرا مدل ها فقط می توانند بر روی مقادیر ممیز شناور آموزش ببینند. مدل ها نمی توانند روی رشته هایی مانند "dog" یا "maple" تمرین کنند. این ماژول روش های مختلف رمزگذاری را برای داده های طبقه بندی توضیح می دهد.