بیایید با بررسی سریع یک ایده کلیدی از Machine Learning Crash Course شروع کنیم. به توزیع در نمودار زیر نگاه کنید.
شکل 1: قیمت خانه در مقابل عرض جغرافیایی.
برای سوال زیر روی فلش مورد نظر کلیک کنید تا پاسخ خود را بررسی کنید:
در مواردی مانند مثال عرض جغرافیایی، باید عرضهای جغرافیایی را به سطلها تقسیم کنید تا چیزهای متفاوتی در مورد مقادیر مسکن برای هر سطل بیاموزید. این تبدیل ویژگیهای عددی به ویژگیهای طبقهبندی، با استفاده از مجموعهای از آستانهها، سطلسازی (یا binning) نامیده میشود. در این مثال سطل، مرزها به یک اندازه فاصله دارند.
شکل 2: قیمت خانه در مقابل عرض جغرافیایی، اکنون به سطل تقسیم می شود.کوانتیل سطل
بیایید با سطلهایی که اضافه شدهاند، مجموعه اطلاعات قیمت خودرو خود را دوباره بررسی کنیم. با داشتن یک ویژگی در هر سطل، این مدل برای یک نمونه در محدوده >45000 به همان اندازه ظرفیت استفاده می کند که برای همه نمونه ها در محدوده 5000-10000. این ضایع کننده به نظر می رسد. چگونه می توانیم این وضعیت را بهبود بخشیم؟
شکل 3: تعداد خودروهای فروخته شده با قیمت های مختلف.
مشکل این است که سطل های با فاصله یکسان این توزیع را به خوبی دریافت نمی کنند. راه حل در ایجاد سطل هایی نهفته است که هر کدام دارای تعداد یکسانی باشند. این تکنیک سطل سازی چندکی نامیده می شود. به عنوان مثال، شکل زیر قیمت خودرو را به چند سطل تقسیم می کند. برای به دست آوردن تعداد مشابهی از نمونه ها در هر سطل، برخی از سطل ها دامنه قیمتی باریکی را در بر می گیرند در حالی که برخی دیگر دامنه قیمتی بسیار وسیعی را در بر می گیرند.
شکل 4: سطل کوانتیل به هر سطل تقریباً همان تعداد اتومبیل می دهد.
خلاصه سطل
اگر میخواهید ویژگیهای عددی خود را سطلبندی کنید، در مورد نحوه تعیین مرزها و نوع سطلبندی که اعمال میکنید، واضح باشید:
- سطل هایی با مرزهای مساوی : مرزها ثابت هستند و محدوده یکسانی را در بر می گیرند (به عنوان مثال، 0-4 درجه، 5-9 درجه، و 10-14 درجه، یا 5000-9999 دلار، 10000-14999 دلار، و 15،09-15،000 دلار). برخی از سطل ها می توانند حاوی نقاط زیادی باشند، در حالی که برخی دیگر ممکن است تعداد کمی داشته باشند یا هیچ کدام را نداشته باشند.
- سطل با مرزهای کمی: هر سطل دارای تعداد یکسانی است. مرزها ثابت نیستند و می توانند دامنه باریک یا وسیعی از مقادیر را در بر گیرند.