داده های عددی: شستشو

درختان سیب ترکیبی از میوه های عالی و آشفتگی های کرمی تولید می کنند. با این حال، سیب‌های موجود در فروشگاه‌های مواد غذایی گران‌قیمت، میوه‌ای 100% عالی را نشان می‌دهند. بین باغ و خواربار فروشی، شخصی زمان زیادی را صرف حذف سیب های بد یا پاشیدن کمی موم روی سیب های قابل نجات می کند. به عنوان یک مهندس ML، شما مقدار زیادی از زمان خود را صرف بیرون انداختن نمونه های بد و پاکسازی نمونه های قابل نجات خواهید کرد. حتی چند سیب بد می تواند یک مجموعه داده بزرگ را خراب کند.

بسیاری از نمونه ها در مجموعه داده ها به دلیل یک یا چند مورد از مشکلات زیر قابل اعتماد نیستند:

دسته مشکل مثال
مقادیر حذف شده سرشماری کننده سن ساکنین را ثبت نمی کند.
نمونه های تکراری یک سرور همان گزارش ها را دو بار آپلود می کند.
مقادیر ویژگی خارج از محدوده یک انسان به طور تصادفی یک رقم اضافی تایپ می کند.
برچسب های بد یک ارزیاب انسانی تصویری از درخت بلوط را به اشتباه به عنوان افرا برچسب گذاری می کند.

شما می توانید یک برنامه یا اسکریپت بنویسید تا هر یک از مشکلات زیر را شناسایی کنید:

  • مقادیر حذف شده
  • نمونه های تکراری
  • مقادیر ویژگی خارج از محدوده

به عنوان مثال، مجموعه داده زیر شامل شش مقدار تکرار شده است:

شکل 15. شش مقدار اول تکرار می شوند. هشت مقدار نهایی نیست.
شکل 15. شش مقدار اول تکرار می شوند.

به عنوان مثال دیگر، فرض کنید محدوده دمایی برای یک ویژگی خاص باید بین 10 تا 30 درجه باشد. اما حوادثی اتفاق می‌افتد - شاید یک دماسنج به طور موقت در معرض نور خورشید قرار می‌گیرد که باعث می‌شود نقطه دورتر بدی ایجاد شود. برنامه یا اسکریپت شما باید مقادیر دمای کمتر از 10 یا بیشتر از 30 را شناسایی کند:

شکل 16. 19 مقدار درون محدوده و یک مقدار خارج از محدوده.
شکل 16. یک مقدار خارج از محدوده.

هنگامی که برچسب‌ها توسط افراد متعددی تولید می‌شوند، توصیه می‌کنیم از نظر آماری تعیین کنید که آیا هر رتبه‌دهنده مجموعه‌های معادلی از برچسب‌ها را تولید کرده است یا خیر. شاید یکی از ارزیاب‌ها نسبت به سایر ارزیاب‌ها درجه‌بندی سخت‌تری داشته باشد یا از معیارهای درجه‌بندی متفاوتی استفاده کرده باشد؟

پس از شناسایی، معمولاً نمونه‌هایی را که حاوی ویژگی‌های بد یا برچسب‌های بد هستند، با حذف آن‌ها از مجموعه داده یا درج مقادیر آن‌ها، «رفع» می‌کنید. برای جزئیات، به بخش ویژگی های داده در ماژول مجموعه داده ها، تعمیم و برازش بیش از حد مراجعه کنید.