سطل سازی

بیایید با بررسی سریع یک ایده کلیدی از Machine Learning Crash Course شروع کنیم. به توزیع در نمودار زیر نگاه کنید.

یک قطعه خانه در عرض جغرافیایی. طرح بسیار نامنظم است و شامل رکود در اطراف عرض جغرافیایی 36 و میخ های بزرگ در اطراف عرض های جغرافیایی 34 و 38 است. شکل 1: قیمت خانه در مقابل عرض جغرافیایی.

برای سوال زیر روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:

شکل 1 را در نظر بگیرید. اگر فکر می کنید که عرض جغرافیایی ممکن است پیش بینی کننده خوبی برای مقادیر مسکن باشد، آیا باید عرض جغرافیایی را به عنوان مقدار ممیز شناور رها کنید؟ چرا و چرا نه؟ (فرض کنید این یک مدل خطی است.)
بله - اگر عرض جغرافیایی یک مقدار ممیز شناور در مجموعه داده است، نباید آن را تغییر دهید.
اگر آن مقادیر ممیز شناور را به شبکه خود وارد کنید، سعی می‌کند یک رابطه خطی بین ویژگی و برچسب را بیاموزد. اما یک رابطه خطی برای عرض جغرافیایی محتمل نیست. افزایش یک درجه ای در عرض جغرافیایی (مثلاً از 34 تا 35 درجه) ممکن است مقداری تغییر در خروجی مدل ایجاد کند، در حالی که افزایش یک درجه ای متفاوت (مثلاً از 35 تا 36 درجه) ممکن است مقدار متفاوتی از تغییر ایجاد کند. . این یک رفتار غیر خطی است.
نه - هیچ رابطه خطی بین عرض جغرافیایی و مقادیر مسکن وجود ندارد.
شما گمان می کنید که عرض های جغرافیایی فردی و ارزش های مسکن به هم مرتبط هستند، اما این رابطه خطی نیست.

در مواردی مانند مثال عرض جغرافیایی، باید عرض‌های جغرافیایی را به سطل‌ها تقسیم کنید تا چیزهای متفاوتی در مورد مقادیر مسکن برای هر سطل بیاموزید. این تبدیل ویژگی‌های عددی به ویژگی‌های طبقه‌بندی، با استفاده از مجموعه‌ای از آستانه‌ها، سطل‌سازی (یا binning) نامیده می‌شود. در این مثال سطل، مرزها به یک اندازه فاصله دارند.

همان نمودار عرض جغرافیایی در مقابل قیمت مسکن در شکل قبلی. این بار اما، طرح به 11 "سطل" تقسیم شده است. بین عرض های جغرافیایی اعداد کامل

شکل 2: قیمت خانه در مقابل عرض جغرافیایی، اکنون به سطل تقسیم می شود.

کوانتیل سطل

بیایید با سطل‌هایی که اضافه شده‌اند، مجموعه اطلاعات قیمت خودرو خود را دوباره بررسی کنیم. با داشتن یک ویژگی در هر سطل، این مدل برای یک نمونه در محدوده >45000 به همان اندازه ظرفیت استفاده می کند که برای همه نمونه ها در محدوده 5000-10000. این ضایع کننده به نظر می رسد. چگونه می توانیم این وضعیت را بهبود بخشیم؟

یک قطعه قیمت خودرو به ازای تعداد خودروهای فروخته شده در آن قیمت. این قطعه به 10 سطل با اندازه مساوی با محدوده 5000 (قیمت خودرو) تقسیم شده است. سه سطل اول شامل نمونه های زیادی است، اما هفت سطل آخر شامل نمونه های بسیار کمی است.

شکل 3: تعداد خودروهای فروخته شده با قیمت های مختلف.

مشکل این است که سطل های با فاصله یکسان این توزیع را به خوبی دریافت نمی کنند. راه حل در ایجاد سطل هایی نهفته است که هر کدام دارای تعداد یکسانی باشند. این تکنیک سطل سازی چندکی نامیده می شود. به عنوان مثال، شکل زیر قیمت خودرو را به چند سطل تقسیم می کند. برای به دست آوردن تعداد مشابهی از نمونه ها در هر سطل، برخی از سطل ها دامنه قیمتی باریکی را در بر می گیرند در حالی که برخی دیگر دامنه قیمتی بسیار وسیعی را در بر می گیرند.

مانند شکل 3، به جز با سطل های کمی. یعنی الان سطل ها اندازه های مختلفی دارند. برد کوچکترین سطل حدود 1000 دلار و بزرگترین سطل حدود 25000 دلار است. تعداد خودروهای موجود در هر سطل اکنون تقریباً یکسان است.

شکل 4: سطل کوانتیل به هر سطل تقریباً همان تعداد اتومبیل می دهد.

خلاصه سطل

اگر می‌خواهید ویژگی‌های عددی خود را سطل‌بندی کنید، در مورد نحوه تعیین مرزها و نوع سطل‌بندی که اعمال می‌کنید، واضح باشید:

  • سطل هایی با مرزهای مساوی : مرزها ثابت هستند و محدوده یکسانی را در بر می گیرند (به عنوان مثال، 0-4 درجه، 5-9 درجه، و 10-14 درجه، یا 5000-9999 دلار، 10000-14999 دلار، و 15،09-15،000 دلار). برخی از سطل ها می توانند حاوی نقاط زیادی باشند، در حالی که برخی دیگر ممکن است تعداد کمی داشته باشند یا هیچ کدام را نداشته باشند.
  • سطل با مرزهای کمی: هر سطل دارای تعداد یکسانی است. مرزها ثابت نیستند و می توانند دامنه باریک یا وسیعی از مقادیر را در بر گیرند.